{"id":133,"date":"2016-01-03T23:40:49","date_gmt":"2016-01-03T22:40:49","guid":{"rendered":"http:\/\/azqs.com\/GeekNik\/?p=133"},"modified":"2021-09-14T23:55:17","modified_gmt":"2021-09-14T22:55:17","slug":"test-du-moteur-de-recherche-yacy","status":"publish","type":"post","link":"https:\/\/azqs.com\/GeekNik\/2016\/01\/03\/test-du-moteur-de-recherche-yacy\/","title":{"rendered":"Test du moteur de recherche P2P Yacy"},"content":{"rendered":"<p>A la recherche d&rsquo;un moteur de recherche, dans l\u2019esprit de l&rsquo;op\u00e9ration <a href=\"http:\/\/liens.azqs.com\/GeekNik\/?MQJlog=&amp;searchtags=d%C3%A9centralis%C3%A9\" target=\"_blank\" rel=\"noopener noreferrer\">D\u00e9googlisons Internet<\/a>, pour de futures services h\u00e9t\u00e9rog\u00e8nes, \u00e0 inclure dans le projet d&rsquo;un r\u00e9seau communautaire strasbourgeois (<a href=\"http:\/\/liens.azqs.com\/GeekNik\/?searchtags=mesh\" target=\"_blank\" rel=\"noopener noreferrer\">r\u00e9seau maill\u00e9<\/a>) ou \/ et d&rsquo;un portail Strasbourgeois (StrasbourgCurieux \/ azqs \/ diaspora \/ &#8230; )\u00a0le choix c&rsquo;est port\u00e9 assez rapidement sur Yacy, contrairement \u00e0 nos p\u00e8res spirituels, qui ont choisi de soutenir des instances <a href=\"http:\/\/liens.azqs.com\/GeekNik\/?searchtags=searx\" target=\"_blank\" rel=\"noopener noreferrer\">Searx<\/a>, pour des raisons honorables d&rsquo;efficacit\u00e9s imm\u00e9diates, mais au prix d&rsquo;une d\u00e9pendance des bases de donn\u00e9es des grands moteurs de recherches.<br \/>\nYacy cumule sur le papier, pas mal d&rsquo;avantages \u00e0 nos yeux de\u00a0 BEATNIK &#8211; p2P donc enti\u00e8rement d\u00e9centralis\u00e9, fait le toi toi m\u00eame\/ Salbscht gemach, Logiciel libre, chiffrement SSL de la recherche pour l&rsquo;utilisateur local &#8211;\u00a0 mais les tests suivants, comme vous le constaterez, fixerons certaines limites, pour des projets plus ambitieux aux n\u00f4tres.<\/p>\n<h2>Configuration de la machine de test<\/h2>\n<p>1 GO M\u00e9moire vive &#8211; DD 80 GO &#8211; Windows XP SP3 &#8211; Java 1.7 &#8211; Proc\u00e9ceur : AMD semptron 3000+ 1,79 MhZ<\/p>\n<p>Ce vieux PC, ne peut pas \u00e0 thermes servir \u00e0 l&rsquo;auto h\u00e9bergement, rien que du fait de sa consommation \u00e9lectrique, (7 euros par mois pour une charge de travail ridicule) mais c&rsquo;est un bon moyen de tester les limites basses de configuration.<\/p>\n<h2>Informations sur l&rsquo;installation<\/h2>\n<p>Le moteur Yacy \u00e0 \u00e9t\u00e9 install\u00e9 sur un PC serveur de partage de fichiers en local et de t\u00e9l\u00e9chargement P2P.<br \/>\nCes utilisations ne se g\u00eanent pas mutuellement.<br \/>\nC&rsquo;est \u00e0 d\u00e9conseiller par contre, sur une station de travail, du fait des temps d\u2019initialisations du logiciel Yacy, sauf si elle est allum\u00e9e tr\u00e8s longtemps sans interruption (et que cette station dispose de beaucoup de m\u00e9moire).<br \/>\nL&rsquo;adresse de test : <a href=\"http:\/\/yacy.azqs.com\" target=\"_blank\" rel=\"noopener noreferrer\">yacy.azqs.com<\/a> (allum\u00e9 6h maximum)<\/p>\n<ul>\n<li>\u00a0R\u00e9glage de m\u00e9moire vive, consomm\u00e9e par Yacy, en maximum 400 Mo.<\/li>\n<li>R\u00e9glage de la vitesse du r\u00e9f\u00e9rencement des pages \u00e0 15 PPM (Moyenne r\u00e9elle 12 ppm)<br \/>\nSi r\u00e9gl\u00e9e en 20 ppm, la moyenne r\u00e9elle \u00e9tait de 6 ppm<\/li>\n<li>Installation du navigateur K-Meleon pour la gestion du moteur sur la m\u00eame machine (tr\u00e8s l\u00e9ger et bouton on\/off Javascript)<br \/>\nSinon pour une utilisation confortable avec FireFox, il aurait fallu r\u00e9duire le r\u00e9glage m\u00e9moire vive Yacy \u00e0 300 Mo.<\/li>\n<li>D\u00e9sinstallation d&rsquo;un antivirus lourd et remplacement par <a href=\"http:\/\/framasoft.net\/article2571.html\" target=\"_blank\" rel=\"noopener noreferrer\">ClamWin antivirus<\/a>.<br \/>\nCela g\u00e9n\u00e9rait des ralentissements importants<\/li>\n<li>Int\u00e9gration (fonction native Yacy) de OpenstreetMap<\/li>\n<\/ul>\n<p>Comme vous le pressentez \u00e0 la vue des bidouilles ci-dessus, il est impossible de travailler s\u00e9rieusement en \u00ab\u00a0bureautique\u00a0\u00bb,\u00a0 sur cette configuration, en parall\u00e8le de YACY.<\/p>\n<p>Vous trouverez<a href=\"http:\/\/www.christopher.compagnon.name\/techno\/yacy.html\" target=\"_blank\" rel=\"noopener noreferrer\"> ici quelques d\u00e9tails pratiques pour les r\u00e9glages<\/a><\/p>\n<h2>Utilisations du Moteur<\/h2>\n<ul>\n<li>Recherche seule, gr\u00e2ce \u00e0 l&rsquo;index collaboratif, sur son ordinateur.<br \/>\n<strong>Tr\u00e8s facile \u00e0 installer<\/strong><\/li>\n<li>Recherche seule, gr\u00e2ce \u00e0 l&rsquo;index collaboratif, sur serveur sp\u00e9cialis\u00e9 en local.<br \/>\n<strong>Probl\u00e8mes de r\u00e9glages des pare-feux, des routeurs et\/ou de la Box<\/strong><\/li>\n<li>Recherche et r\u00e9f\u00e9rencement. Utilisation de l&rsquo;index Yacy perso et de l&rsquo;index collaboratif.<br \/>\n<strong><strong>Probl\u00e8mes de r\u00e9glages des pare-feux\u00a0de la Box <\/strong><\/strong><strong><strong>et\/ou <\/strong><\/strong><strong><strong>des routeurs<\/strong><\/strong><\/li>\n<\/ul>\n<p>En gros, pour une utilisation collaborative du moteur, il est difficile de le d\u00e9ployer chez les un-e-s et les autres sans faire une s\u00e9ance d\u2019installation par un bidouilleur.<\/p>\n<h2>Type de sites \u00e0 r\u00e9f\u00e9rencer<\/h2>\n<p>Les r\u00e9glages de la profondeur du r\u00e9f\u00e9rencement pour un rapport\u00a0correcte taille\/qualit\u00e9 de la BDD , d\u00e9pendent dans Yacy de la source !!!<br \/>\nDonc voici un guide grandement imparfait, mais pouvant vous \u00e9viter de remplir votre base de donn\u00e9es, de sites\u00a0 trop g\u00e9n\u00e9ralistes, voir douteux.<br \/>\nLes niveaux de recherche (0, +1, +2, etc) sont \u00e0 titre indicatifs, car il a un manque de compr\u00e9hension des cons\u00e9quences exactes des autres r\u00e9glages \u00e0 cette heure, par les GEEKNIKs.<\/p>\n<ul>\n<li>Point de d\u00e9part :\u00a0 Annuaires g\u00e9n\u00e9ralistes.<br \/>\nBeaucoup de liens, qualit\u00e9s des liens variables.<br \/>\nRecherche de la profondeur de recherche \u00e0 +1.<br \/>\nS\u00e9lection des rubriques \u00e0 r\u00e9f\u00e9rencer dans certains cas.<\/li>\n<li>Point de d\u00e9part :\u00a0 S\u00e9lection de liens sur une page de site ou annuaire sp\u00e9cialis\u00e9s.<br \/>\nQualit\u00e9s des liens bonnes.<br \/>\nRecherche \u00e0 +2, tout le site\/ou page.<\/li>\n<li>Point de d\u00e9part :\u00a0 Petit site de contenus \u00e0 vis\u00e9e non commerciale (les passionn\u00e9s).<br \/>\nQualit\u00e9s des liens tr\u00e8s bonnes.<br \/>\nRecherche \u00e0 +2\/+3, tout le site.<\/li>\n<li>Point de d\u00e9part :\u00a0 Site \u00e0 gros contenus sp\u00e9cialis\u00e9s (m\u00e9dia pros, agenda des sorties, site de conseils,&#8230;)<br \/>\nQualit\u00e9s des liens et du contenu bonnes.<br \/>\nRecherche \u00e0 +1, tout le site.<\/li>\n<li>Point de d\u00e9part :\u00a0 Site \u00e0 gros contenus g\u00e9n\u00e9ralistes (sites d&rsquo;informations)<br \/>\nQualit\u00e9s des liens et du contenu bonnes.<br \/>\nRecherche \u00e0 +1, tout le site.<\/li>\n<li>Sites \u00e0 gros contenus g\u00e9n\u00e9ralistes, multilingue (Wikipedia)<br \/>\nQualit\u00e9s des liens et du contenu bonnes.<br \/>\nRecherche \u00e0 +1, section .FR<\/li>\n<li>Grosses Plateformes de contenu (Tontube, Vim\u00e9o, Cuicuiter, faceBique, Forums g\u00e9n\u00e9ralistes)<br \/>\nA boire et \u00e0 vomir, Trop le bordel. A r\u00e9f\u00e9rencer au cas par cas.<br \/>\nRecherche \u00e0 +0.<\/li>\n<\/ul>\n<p>En gros le r\u00e9glage de la profondeur de recherche en +3 est \u00e0 utiliser dans des cas extr\u00eamement restreints.<br \/>\nPar exemple le cas de communaut\u00e9s de blogs\/sites de passionn\u00e9s exp\u00e9riment\u00e9s, en g\u00e9n\u00e9rale tr\u00e8s s\u00e9lectives dans leurs partages de liens.<\/p>\n<p>Note test \u00e0 effectuer : <strong>Comment ne pas r\u00e9f\u00e9rencer les pubs ?<\/strong><\/p>\n<h2>Type de r\u00e9f\u00e9rencement de pages<\/h2>\n<p>Le point 4) est une aventure en soit&#8230; pas mal de tests \u00e0 faire, pour trouver un r\u00e9glage optimum.<br \/>\nCe travail de recherches, sera effectu\u00e9 lors du d\u00e9ploiement des services communautaire.<\/p>\n<p>1) R\u00e9f\u00e9rencement d&rsquo;une page et\/ou des pages d&rsquo;un site.<br \/>\nC&rsquo;est le plus simple !!!<br \/>\nMenu : Premier pas &gt; Charger des pages, balayeur.<\/p>\n<p>2) Suivi d&rsquo;un site par son flux RSS\/ATOM<br \/>\nNote de travail:\u00a0 Voir si possibilit\u00e9 d&rsquo;importer\/exporter un fichier.<\/p>\n<p>3) Par les visites de son surf (via proxy)<br \/>\n<strong>Je n&rsquo;y arrive pas.<\/strong><\/p>\n<p>4) Par le lancement d&rsquo;une recherche multi-sites et conditionnelle (gr\u00e2ce \u00e0 un site de d\u00e9part)<br \/>\nNote test \u00e0 effectuer : Voir en d\u00e9tail les implications des r\u00e9glages, car \u00e0 + 3 l&rsquo;index, peut devenir monstrueux !<\/p>\n<div id=\"attachment_143\" style=\"width: 310px\" class=\"wp-caption alignnone\"><a href=\"http:\/\/azqs.com\/GeekNik\/files\/2016\/01\/2015-12-29-01-02-37.jpg\"><img loading=\"lazy\" decoding=\"async\" aria-describedby=\"caption-attachment-143\" class=\"wp-image-143 size-medium\" src=\"http:\/\/azqs.com\/GeekNik\/files\/2016\/01\/2015-12-29-01-02-37-300x180.jpg\" alt=\"--2015-12-29--01-02-37\" width=\"300\" height=\"180\" srcset=\"https:\/\/azqs.com\/GeekNik\/files\/2016\/01\/2015-12-29-01-02-37-300x180.jpg 300w, https:\/\/azqs.com\/GeekNik\/files\/2016\/01\/2015-12-29-01-02-37-1024x614.jpg 1024w, https:\/\/azqs.com\/GeekNik\/files\/2016\/01\/2015-12-29-01-02-37.jpg 1279w\" sizes=\"(max-width: 300px) 100vw, 300px\" \/><\/a><p id=\"caption-attachment-143\" class=\"wp-caption-text\">Fin du r\u00e9f\u00e9rencement \u00e0 : 1.240.000 urls et 580.000 mots dans l&rsquo;index, avec une m\u00e9moire vive r\u00e9serv\u00e9e pour Yacy \u00e0 400 Mo<\/p><\/div>\n<p>Il est important de filtrer les gros sites, \u00e0 contenu de peu de valeurs.<br \/>\nTweeter par exemple, renvoie vers tout et n&rsquo;importe quoi et n&rsquo;apporte pas de contenu.<br \/>\nDe plus il est en lien sur \u00e9norm\u00e9ment de sites . Il remplis rapidement la base \u00e0 20 %&#8230; avec du rien.<\/p>\n<h2>Les probl\u00e8mes<\/h2>\n<h3>I) Tr\u00e8s g\u00eanants<\/h3>\n<p>1) Pas de possibilit\u00e9 de rentrer doucement dans les r\u00e9glages, gr\u00e2ce \u00e0 une s\u00e9lection d\u00e9butant\/habitu\u00e9\/expert.<\/p>\n<p>2) Page web r\u00e9f\u00e9renc\u00e9es en multi entr\u00e9es.<br \/>\nYacy ne sait pas reconna\u00eetre spontan\u00e9ment une page identique ayant des liens diff\u00e9rents. exemple http:\/\/azqs.com\/PageTruc?hot de http:\/\/azqs.com\/PageTruc?new<br \/>\nIl peut dans un site utilisant de nombreux mots clef recopier 50 fois la m\u00eame page dans l&rsquo;index local.<br \/>\nEt ensuite la proposer 50 fois \u00e0 la recherche&#8230;<br \/>\nQuestion \u00e0 poser \u00e0 l&rsquo;\u00e9quipe Yacy : <strong>C&rsquo;est un r\u00e9glage ?<\/strong><\/p>\n<p>3) Traduction non compl\u00e8te et approximative de l&rsquo;interface de Yacy<br \/>\nQuestion \u00e0 poser \u00e0 l&rsquo;\u00e9quipe Yacy : <strong>Comment participer \u00e0 la traduction ?<\/strong><\/p>\n<p>4) Conseils de r\u00e9glages pas trouv\u00e9s.<br \/>\nSi le point 1) \u00e9tait possible peut-\u00eatre qu&rsquo;un tutoriel par pallier pourrait \u00eatre \u00e9crit plus facilement.<\/p>\n<p>5) Conseils de configuration n\u00e9cessaire suivant l&rsquo;utilisation.<br \/>\nServeur seul \/ serveur et poste de travail \/ recherche et poste de travail<\/p>\n<p>6) Interface visuelle des inter-liens, super consommatrices en ressources processeurs.<\/p>\n<h3>II) Peux g\u00eanants<\/h3>\n<p>1) Dans le r\u00e9sultat de recherche : Affichage des images mal gaul\u00e9es.<\/p>\n<p>2) Dans le r\u00e9sultat de recherche : Basculement page\/image\/autre manquant.<\/p>\n<p>3) Barre lat\u00e9rale \u00e0 remanier.<\/p>\n<h2>Conclusion fin 2015<\/h2>\n<ul>\n<li>Il faut effectivement,\u00a0 2 Mo de m\u00e9moire vive (comme indiqu\u00e9 sur le site officiel), pour faire fonctionner correctement Yacy en parall\u00e8le d&rsquo;autres logiciels <strong>et<\/strong> pour avoir un index de bonne taille de type portail th\u00e9matique<\/li>\n<li>La base fran\u00e7aise de Yacy n&rsquo;est pas suffisante pour \u00eatre pertinente en tant que moteur g\u00e9n\u00e9raliste, donc YaCy n&rsquo;est pas utilisable pour le grand publique, en l&rsquo;\u00e9tat, dans la francophonie.<br \/>\nLes axes de d\u00e9veloppement possibles pour rem\u00e9dier a ce probl\u00e8me.<\/li>\n<\/ul>\n<p>1) Utilisation de Yacy en portail(s) th\u00e9matique(s) AVEC reversement des bases (locales) th\u00e9matiques dans le pot commun Yacy monde.<br \/>\nQuestion \u00e0 poser \u00e0 l&rsquo;\u00e9quipe Yacy : <strong>Comment r\u00e9gler Yacy en portail th\u00e9matique mais avec bases communes ?<\/strong><\/p>\n<p>2) Construire une communaut\u00e9 de bases th\u00e9matiques.<br \/>\nL&rsquo;id\u00e9e serait de conglom\u00e9rer peut-\u00e0 peut certains point Yacy sp\u00e9cialis\u00e9s, pour cr\u00e9er une grosse base th\u00e9matique.<br \/>\nQuestion \u00e0 poser \u00e0 l&rsquo;\u00e9quipe Yacy : <strong>Le regroupement s\u00e9lectif par ips, pour un portail,\u00a0 de base de donn\u00e9es est il possible ?<\/strong><\/p>\n<p>3) D\u00e9velopper un logiciel <strong>l\u00e9ger<\/strong> de flux RSS, utilisant la base Yacy pour les recherches locales et\/ou distantes et r\u00e9f\u00e9rencent les flux suivis dans le pot commun Yacy.<\/p>\n<p>&nbsp;<\/p>\n<ul>\n<li>Yacy est tout \u00e0 fait apte pour une utilisation \u00ab\u00a0portail communautaire\u00a0\u00bb (20\/30 petits sites) avec cette configuration et peut probablement g\u00e9rer un portail th\u00e9matique de 200 sites importants avec une config plus robuste.<br \/>\n.<\/li>\n<\/ul>\n<h2>En savoir plus sur les moteurs<\/h2>\n<p>Liens sur le sujet <a href=\"http:\/\/liens.azqs.com\/GeekNik\/?searchtags=moteur+recherche\" target=\"_blank\" rel=\"noopener noreferrer\">ici<\/a> ou <a href=\"https:\/\/www.pearltrees.com\/geeknik\/mes-outils-de-recherches\/id16728159\" target=\"_blank\" rel=\"noopener noreferrer\">ici<\/a><\/p>\n<p>&nbsp;<\/p>\n","protected":false},"excerpt":{"rendered":"<p>A la recherche d&rsquo;un moteur de recherche, dans l\u2019esprit de l&rsquo;op\u00e9ration D\u00e9googlisons Internet, pour de futures services h\u00e9t\u00e9rog\u00e8nes, \u00e0 inclure dans le projet d&rsquo;un r\u00e9seau communautaire strasbourgeois (r\u00e9seau maill\u00e9) ou \/ et d&rsquo;un portail Strasbourgeois (StrasbourgCurieux \/ azqs \/ diaspora &hellip; <a href=\"https:\/\/azqs.com\/GeekNik\/2016\/01\/03\/test-du-moteur-de-recherche-yacy\/\">Continuer la lecture <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":278,"featured_media":0,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"wikipediapreview_detectlinks":true,"footnotes":""},"categories":[4],"tags":[89,65,64,31,7,27,32,70],"class_list":["post-133","post","type-post","status-publish","format-standard","hentry","category-geekerie","tag-autonomie","tag-decentralisation","tag-internet","tag-moteur","tag-moteur-de-recherche","tag-projet","tag-recherche","tag-web"],"_links":{"self":[{"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/posts\/133"}],"collection":[{"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/users\/278"}],"replies":[{"embeddable":true,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/comments?post=133"}],"version-history":[{"count":4,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/posts\/133\/revisions"}],"predecessor-version":[{"id":744,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/posts\/133\/revisions\/744"}],"wp:attachment":[{"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/media?parent=133"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/categories?post=133"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/azqs.com\/GeekNik\/wp-json\/wp\/v2\/tags?post=133"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}