«

»

Jan 03

Test du moteur de recherche P2P Yacy

A la recherche d’un moteur de recherche , dans l’esprit de l’opération Dégooglisons Internet , pour de futures services hétérogènes, à inclure dans le projet d’un réseau communautaire strasbourgeois (réseau maillé) ou / et d’un portail Strasbourgeois (strasbourgcurieux / azqs / diaspora / … ) le choix c’est porté assez rapidement sur Yacy., contrairement à nos pères spirituels, qui ont choisi de soutenir des instances Searx, pour des raisons honorables d’efficacités immédiates, mais au prix d’une dépendance des bases de données des grands moteurs de recherches.
Yacy cumule sur le papier, pas mal d’avantages à nos yeux de  BEATNIK – p2P donc entièrement décentralisé, fait le toi toi même/ Salbscht gemach, Logiciel libre, chiffrement SSL de la recherche pour l’utilisateur local –  mais les tests suivants, comme vous le constaterez, fixerons certaines limites, pour des projets plus ambitieux aux nôtres.

Configuration de la machine de test

1 GO Mémoire vive – DD 80 GO – Windows XP SP3 – Java 1.7 – Procéceur : AMD semptron 3000+ 1,79 MhZ

Ce vieux PC, ne peut pas à thermes servir à l’auto hébergement, rien que du fait de sa consommation électrique, (7 euros par mois pour une charge de travail ridicule) mais c’est un bon moyen de tester les limites basses de configuration.

Informations sur l’installation

Le moteur Yacy à été installé sur un PC serveur de partage de fichiers en local et de téléchargement P2P.
Ces utilisations ne se gênent pas mutuellement.
C’est à déconseiller par contre, sur une station de travail, du fait des temps d’initialisations du logiciel Yacy, sauf si elle est allumée très longtemps sans interruption (et que cette station dispose de beaucoup de mémoire).
L’adresse de test : yacy.azqs.com (allumé 6h maximum)

  •  Réglage de mémoire vive, consommée par Yacy, en maximum 400 Mo.
  • Réglage de la vitesse du référencement des pages à 15 PPM (Moyenne réelle 12 ppm)
    Si réglée en 20 ppm, la moyenne réelle était de 6 ppm
  • Installation du navigateur K-Meleon pour la gestion du moteur sur la même machine (très léger et bouton on/off Javascript)
    Sinon pour une utilisation confortable avec FireFox, il aurait fallu réduire le réglage mémoire vive Yacy à 300 Mo.
  • Désinstallation d’un antivirus lourd et remplacement par ClamWin antivirus.
    Cela générait des ralentissements importants
  • Intégration (fonction native Yacy) de OpenstreetMap

Comme vous le pressentez à la vue des bidouilles ci-dessus, il est impossible de travailler sérieusement en « bureautique »,  sur cette configuration, en parallèle de YACY.

 

Vous trouverez ici quelques détails pratiques pour les réglages

Utilisations du Moteur

  • Recherche seule, grâce à l’index collaboratif, sur son ordinateur.
    Très facile à installer
  • Recherche seule, grâce à l’index collaboratif, sur serveur spécialisé en local.
    Problèmes de réglages des pare-feux, des routeurs et/ou de la Box
  • Recherche et référencement. Utilisation de l’index Yacy perso et de l’index collaboratif.
    Problèmes de réglages des pare-feux de la Box et/ou des routeurs

En gros, pour une utilisation collaborative du moteur, il est difficile de le déployer chez les uns et les autres sans faire une séance d’installation par un bidouilleur.

Type de sites à référencer

Les réglages de la profondeur du référencement pour un rapport correcte taille/qualité de la BDD , dépendent dans Yacy de la source !!!
Donc voici un guide grandement imparfait, mais pouvant vous éviter de remplir votre base de données, de sites  trop généralistes, voir douteux.
Les niveaux de recherche (0, +1, +2, etc) sont à titre indicatifs, car il a un manque de compréhension des conséquences exactes des autres réglages à cette heure, par les GEEKNIKs.

  • Point de départ :  Annuaires généralistes.
    Beaucoup de liens, qualités des liens variables.
    Recherche de la profondeur de recherche à +1.
    Sélection des rubriques à référencer dans certains cas.
  • Point de départ :  Sélection de liens sur une page de site ou annuaire spécialisés.
    Qualités des liens bonnes.
    Recherche à +2, tout le site/ou page.
  • Point de départ :  Petit site de contenus à visée non commerciale (les passionnés).
    Qualités des liens très bonnes.
    Recherche à +2/+3, tout le site.
  • Point de départ :  Site à gros contenus spécialisés (média pros, agenda des sorties, site de conseils,…)
    Qualités des liens et du contenu bonnes.
    Recherche à +1, tout le site.
  • Point de départ :  Site à gros contenus généralistes (sites d’informations)
    Qualités des liens et du contenu bonnes.
    Recherche à +1, tout le site.
  • Sites à gros contenus généralistes, multilingue (Wikipedia)
    Qualités des liens et du contenu bonnes.
    Recherche à +1, section .FR
  • Grosses Plateformes de contenu (Tontube, Viméo, Cuicuiter, faceBique, Forums généralistes)
    A boire et à vomir, Trop le bordel. A référencer au cas par cas.
    Recherche à +0.

En gros le réglage de la profondeur de recherche en +3 est à utiliser dans des cas extrêmement restreints.
Par exemple le cas de communautés de blogs/sites de passionnés expérimentés, en générale très sélectives dans leurs partages de liens.

Note test à effectuer : Comment ne pas référencer les pubs ?

Type de référencement de pages

Le point 4) est une aventure en soit… pas mal de tests à faire, pour trouver un réglage optimum.
Ce travail de recherches, sera effectué lors du déploiement des services communautaire.

1) Référencement d’une page et/ou des pages d’un site.
C’est le plus simple !!!
Menu : Premier pas > Charger des pages, balayeur.

2) Suivi d’un site par son flux RSS/ATOM
Note de travail:  Voir si possibilité d’importer/exporter un fichier.

3) Par les visites de son surf (via proxy)
Je n’y arrive pas.

4) Par le lancement d’une recherche multi-sites et conditionnelle (grâce à un site de départ)
Note test à effectuer : Voir en détail les implications des réglages, car à + 3 l’index, peut devenir monstrueux !

--2015-12-29--01-02-37

Fin du référencement à : 1.240.000 urls et 580.000 mots dans l’index, avec une mémoire vive réservée pour Yacy à 400 Mo

Il est important de filtrer les gros sites, a contenu de peux de valeurs.
Tweeter par exemple, renvoie vers tous et n’importe quoi et n’apporte pas de contenu.
De plus il est en lien sur énormément de sites . Il remplis rapidement la base à 20 %… avec du rien.

Les problèmes

I) Très gênants

1) Pas de possibilité de rentrer doucement dans les réglages, grâce à une sélection débutant/habitué/expert.

2) Page web référencées en multi entrées.
Yacy ne sait pas reconnaitre spontanément une page identique ayant des liens différents. exemple http://azqs.com/PageTruc?hot de http://azqs.com/PageTruc?new
Il peut dans un site utilisant de nombreux mots clef recopier 50 fois la même page dans l’index local.
Et ensuite la proposer 50 fois à la recherche…
Question à poser à l’équipe Yacy : C’est un réglage ?

3) Traduction non complète et approximative de l’interface de Yacy
Question à poser à l’équipe Yacy : Comment participer à la traduction ?

4) Conseils de réglages pas trouvés.
Si le point 1) était possible peut-être qu’un tutoriel par pallier pourrait être écrit plus facilement.

5) Conseils de configuration nécessaire suivant l’utilisation.
Serveur seul / serveur et poste de travail / recherche et poste de travail

6) Interface visuelle des inter-liens, super consommatrices en ressources processeurs.

II) Peux gênants

1) Dans le résultat de recherche : Affichage des images mal gaulées.

2) Dans le résultat de recherche : Basculement page/image/autre manquant.

3) Barre latérale a remanier.

Conclusion fin 2015

  • Il faut effectivement,  2 Mo de mémoire vive (comme indiqué sur le site officiel), pour faire fonctionner correctement Yacy en parallèle d’autres logiciels et pour avoir un index de bonne taille de type portail thématique
  • La base française de Yacy n’est pas suffisante pour être pertinente en tant que moteur généraliste, donc YaCy n’est pas utilisable pour le grand publique, en l’état, dans la francophonie.
    Les axes de développement possibles pour remédier a ce problème.

1) Utilisation de Yacy en portail(s) thématique(s) AVEC reversement des bases (locales) thématiques dans le pot commun Yacy monde.
Question à poser à l’équipe Yacy : Comment régler Yacy en portail thématique mais avec bases communes ?

2) Construire une communauté de bases thématiques.
L’idée serait de conglomérer peut-à peut certains point Yacy spécialisés, pour créer une grosse base thématique.
Question à poser à l’équipe Yacy : Le regroupement sélectif par ips, pour un portail,  de base de données est il possible ?

3) Développer un logiciel léger de flux RSS, utilisant la base Yacy pour les recherches locales et/ou distantes et référencent les flux suivis dans le pot commun Yacy

 

  • Yacy est tout à fait apte pour une utilisation « portail communautaire » (20/30 petits sites) et peut probablement gérer un portail thématique de 200 sites importants avec une config plus robuste.
    .

En savoir plus sur les moteurs

Liens sur le sujet ici.