P2P: Ein Erfahrungsbericht zu #YaCy

Last Updated on 1 Jahr by TmoWizard

(Edit 11.07.2017: Zur besseren Verdeutlichung wegen der Suchtiefe habe ich nun eine Grafik eingefügt!)

Liebe Leserinnen und Leser,

YaCy Logonach nun knapp 100 Tagen möchte ich hier einen Erfahrungsbericht zu meinem eigenen YaCy-Server bringen. Auch zu meinem darauffolgenden Artikel möchte ich nochmal ein Statement abgeben, denn dort gab es ja einen kleinen Disput! Eines gleich mal vorne weg: Der Server läuft natürlich immer noch! :mrgreen:

 

Die Geschwindigkeit von YaCy:

Die Geschwindigkeit bei der Suche ist ja wirklich eine Sache, die von vielen Faktoren abhängt. Hier gilt natürlich wie so oft in der IT, daß ein schnellerer Rechner natürlich auch die Geschwindigkeit von YaCy beschleunigt! Dies gilt nicht nur bei der Suche selbst, sondern logischer Weise auch beim Crawlen einer Website. Ein Rechner wie mein „normaler“ PC hier wäre gegenüber meinem Server eine tolle Bereicherung, allerdings fehlt mir derzeit leider das nötige Kleingeld dafür.

Ein weiterer Faktor ist freilich auch die eigene Anbindung an’s Internet, Glasfaser wie bei mir oder ein Kabelanschluß sind hier natürlich von Vorteil. Allerdings spielt in einem P2P-Netzwerk immer auch die Anbindung und die Anzahl der anderen Teilnehmer eine große Rolle. Ich kenne z. B. einige Leute, die haben nur 6 Mbit/s oder gar weniger zur Verfügung, das hat natürlich ziemliche heftige Auswirkungen beim Suchen wie auch beim Crawlen oder der Index-Verteilung!

Das ist nun einmal der Nachteil bei P2P, wenn nur wenige Leute mitmachen. Gleiches gilt z. B. auch bei Torrent, welches ja ebenfalls ein P2P-Netzwerk ist. Wenn dort nicht genügend Leute mit machen und dann noch ein paar mit einer miesen Anbindung dabei sind, dann dauert natürlich auch der Download entsprechend länger!

 

Das Indexieren von Websites:

Hier gibt es ja verschiedene Möglichkeiten, welche bei YaCy zur Verfügung stehen. Zum Einen natürlich das normale Crawlen einer Website, zum Anderen aber auch das Indexieren durch RSS-Feeds. Ehrlich gesagt habe ich die meisten Sites meines Index über RSS-Feeds aufgenommen, das geht wesentlich schneller! Man fügt die Feed-Adresse an der entsprechenden Stelle ein (ich erweitere passend dazu demnächst noch mein Tutorial!), ändert die Optionen nach entsprechendem Wunsch und das war es auch schon.

Das geht natürlich wesentlich schneller wie das Crawlen, allerdings entspricht das dann eben nur einer Suchtiefe von 0! Es werden also keine weiteren Links in den Artikeln beachtet, womit natürlich auch der Index langsamer wächst. Ich habe das hier jeweils so eingestellt, daß YaCy alle 6 Stunden diese Feeds überprüft. Mein Index ist damit folglich immer relativ auf dem neuesten Stand, jedoch eben nur bei mir bekannten Websites.

Hier hat ein richtiger Crawl natürlich den Vorteil, daß man dort auch noch die Suchtiefe einstellen kann. Der Standard wäre dabei eine Suchtiefe von 3, das sollte man am Besten auch so belassen! Je höher man das einstellt, desto länger dauert auch die Indexierung einer Site. Ich habe da z. B. einen Fehler begangen, ich wollte nämlich mein Castle bei einer Suchtiefe von 6 indexieren! Wie dort zu Lesen ist war das ein grober Fehler, hierfür ist solch ein alter und einfacher PC eindeutig nicht mehr geeignet! :roll:

Bei manchen Websites ist es jedoch so, daß es dort gar keinen Feed gibt! Hier bleibt einem also gar keine andere Wahl, man muß dann eben einen Crawl starten. Hierzu nun eine kurze Erklärung:

 

Die Suchtiefe:

Mit der Suchtiefe hat es die Bewandtnis, daß die meisten Webseiten natürlich auch Links zu anderen Webseiten haben. Hier kommt nun die Suchtiefe in’s Spiel, denn das ist meiner Ansicht nach äußerst wichtig! Dazu folgende Erläuterung der Suchtiefe:

  1. Es wird nur die entsprechende Website gecrawlt, Links werden nicht beachtet
  2. Hier wird auch den Links zu anderen Webseiten gefolgt
  3. Hier wird auch den folgenden Links gefolgt
  4. u.s.w. etc…

Je tiefer also die Suche geht, desto mehr Links auf den verlinkten Webseiten wird gefolgt! Das sieht dann ungefähr so aus:

  1. Webseite 0, also z. B. nur mein Blog hier
  2. Webseiten 0 und 1, z. B. das YaCy-Forum
  3. Webseiten 0, 1 und 2, vom YaCy-Forum aus geht es somit weiter zur nächsten Webseite
  4. (Standard bei YaCy) Webseiten 0, 1, 2, 3 …

Hier dazu eine entsprechende Grafik:

Schema der Suchtiefe

Ihr seht also, daß sich das potentiell steigert! Wenn ich das jetzt auf mein Blog gesehen betrachte, dann wirkt sich das ziemlich fatal aus. Ich verlinke ja in meinen Artikeln teilweise zu 3 und mehr Artikeln, welche nicht unbedingt alle auf einer einzigen Webseite zu finden sind. Da kommen dann Links zu verschiedenen Foren, Magazinen, Blogs, die Wikipedia, von denen dann ebenfalls die dortigen Links und man kann sich dann wohl gut vorstellen, daß ein Crawl bei einer Suchtiefe von 6 wie oben beschrieben für mein Castle nicht unbedingt eine gute Idee von mir war! Kopfanwandsmilie

 

Die Suchergebnisse:

Hier komme ich nun zu dem Punkt, welche ständig von allen Seiten bemängelt wird und welcher mir auch immer wieder ziemlich sauer aufstößt! Immer und immer wieder lese ich, daß die Suchergebnisse von YaCy so schlecht sind und deswegen keiner mitmachen möchte! Es ist aber genau anders herum:

Die Suchergebnisse von YaCy sind so schlecht, weil eben niemand mitmachen möchte!!

 

Ja woher sollen denn die Suchergebnisse kommen? Wenn alle so hirnverbrannt denken würden, dann gäbe es bis heute gar keine Suchergebnisse bei YaCy und Michael „Orbiter“ Christen könnte sein Projekt einmotten! Hier werden die Tatsachen vollkommen verdreht und völlig falsch dargestellt, nur durch mehr Teilnehmer kann auch der Index von YaCy weiter wachsen und die Suchergebnisse werden besser. Zudem wird die Suche auch schneller bei mehr Teilnehmern (Skalierung)!

 

Die Qualität der Suche:

Ein anderes Problem mit den Suchergebnissen wurde unter Anderem auch im Forum angesprochen, und zwar die Qualität der Suchergebnisse! Ich zitiere mal:

Nach meiner Erfahrung ist die Qualität der Suchergebnisse meist miserabel. Es wirkt so. als wären sie von einem Zufallsgenerator ausgegeben.

Öhm… ja, das stimmt irgendwie schon! Man bekommt bei YaCy ein anderes Suchergebnis wie bei anderen Suchmaschinen, wobei hierbei natürlich die Suchbegriffe eine große Rolle spielen. Ich durfte aber auch feststellen, daß es von Suchmaschine zu Suchmaschine ebenfalls große Unterschiede geben kann! Bei Bing oder Yahoo findet man z. B. mein Castle eher selten, während es bei Google mit den selben Suchbegriffen oftmals weit vorne mit dabei ist.

Allerdings spielen hier auch andere Faktoren eine Rolle, da fast alle anderen Suchmaschinen verschiedene Tracker und/oder HTTP-Cookies einsetzen, damit man entsprechende Ergebnisse bekommt. Dies ist bei YaCy jedoch nicht der Fall, entsprechend anders sind eben auch die Suchergebnisse sortiert… besser gesagt sie sind eben nicht sortiert! Man muß zur Suche also sehr genau überlegen, welche Suchbegriffe man verwendet.

 

Zur Installation:

Wie oben schon erwähnt gab es bei meinem entsprechenden Artikel ein kleinen Disput, unter Anderem auch wegen Java. Das halte ich nun für komplett idiotisch, wenn derjenige selbst PHP für seine Website verwendet, Hirnfick 2.0 ist da wohl wirklich der passende Name dafür! Sorry @tux., nichts gegen dich persönlich, aber selbst Schuld! Wer Java wegen Sicherheitsbedenken ablehnt aber gleichzeitig PHP und JavaScript (nein, das ist immer noch kein Java!) für die eigene Webseite verwendet, der hat den entsprechenden Spott wohl verdient!

Java hat wie jede andere Programmiersprache so ihre Fehler, nur benötigt man für YaCy nicht die ganze Entwicklungsumgebung von Java! Zudem ist Java sehr weit verbreitet, da auch viele Anwendungen im Netz (Internet und Intranet) damit erstellt wurden und auch immer noch werden. Dabei ist auch zu beachten, daß hier nicht das entsprechende Browser-Plugin gemeint ist, welches zum Glück eh kaum noch von modernen Browsern unterstützt wird!

Außerdem hat man YaCy im Allgemeinen bei sich zu Hause im eigenen Netzwerk auf einem einfachen Server oder auch auf dem normalen Arbeits-PC installiert, nicht für jeden frei zugänglich auf einem Server im Internet. Das würde ja auch dem Sinn einer dezentralen Suchmaschine widersprechen (eben P2P), denn die wäre dann ja wieder zensierbar und zudem auch noch an das LSR gebunden! Siehe dazu auch folgende Grafik:

Projektziel von YaCyZitat YaCy:

YaCy ist eine Suchmaschine bei dem die Nutzer selbst zum Betreiber werden. Die freie Suchmaschinensoftware YaCy läuft nicht auf einem Server im Internet, sondern auf Ihrem eigenen Rechner. So können Sie Ihr persönliches Suchportal errichten, bei dem nur Sie bestimmen was die Suchmaschine im Suchindex hat.

Die Besonderheit von YaCy ist aber, dass es sich mit den anderen Benutzern, die ebenfalls eine YaCy-Suchmaschine betreiben, verbinden kann. So entsteht ein vollständig dezentrales Peer-to-Peer Suchmaschinennetz (*.yacy) welches mit der Anzahl der Nutzer skaliert. Diese, von der Gemeinschaft der Nutzer betriebene Suchmaschine ist nicht zensierbar und speichert auch kein Nutzerverhalten an zentraler Stelle. Das Erreichen von Informationsfreiheit durch freie, dezentrale Suchsoftware ist auch ein Projektziel.

 

Mein Fazit:

Ein P2P-Netzwerk ist immer abhängig von der Anzahl der Teilnehmer, das gilt natürlich auch für YaCy als P2P-Suchmaschine! Man kann nicht über schlechte Suchergebnisse meckern und sagen, daß es deswegen so wenige Teilnehmer gibt. Die Suchergebnisse sind so schlecht, weil so wenige Leute mitmachen!

Auch kann man nicht über Java schimpfen, wenn man selbst PHP und JavaScript verwendet! Die nehmen sich Punkto Sicherheit echt nicht viel weg, wie man immer wieder lesen kann.

Ebenfalls kann niemand behaupten, daß die Voraussetzungen für YaCy viel zu hoch sind! Hier wird ein inzwischen über 10 Jahre alter AMD64 verwendet, andere Leute würden sowas auf den Schrottplatz bringen. Selbst Smartphones haben heute mehr Power wie dieser Kasten, aber für YaCy reicht so ein Gerät allemal!

Daß YaCy langsamer wie andere Suchmaschinen ist sollte eigentlich auch jedem einleuchten, der sich schon mal mit dem Thema P2P befaßt hat. Hier spielen einfach sehr viele verschiedene Faktoren eine Rolle, unter Anderem natürlich auch die eigene Anbindung an das Internet und die Anzahl und Anbindung der anderen Teilnehmer!

Ich möchte YaCy nicht schönreden, aber sie erfüllt eben ihren Zweck als Suchmaschine. Die Suchergebnisse steigen und fallen zwar mit der Anzahl der Teilnehmer, aber einige Peers wie z. B. mein eigener sorgen dafür, daß die Suchergebnisse besser werden.

Ok, mit gerade mal knapp 8 Millionen Dokumenten im Index ist mein YaCy gerade mal irgendwo im Mittelfeld der Peers zu finden. Wenn man aber bedenkt, daß mein „Server“ noch nicht mal 100 Tage alt ist und ich auch nur zwischendurch neue Seiten crawle, dann ist das eigentlich gar nicht so schlecht. Immerhin gibt es Peers, die zum Teil seit Jahren online sind und nicht einmal eine einzige Million erreicht haben! 8-O

Das ist dann übrigens ebenfalls ein Grund, warum die Suchergebnisse von YaCy nicht so berauschend sind! Was bringt mir denn die eigene Suchmaschine, wenn ich sie nicht zum Indexieren von Webseiten verwende? Das ist so sinnvoll wie ein Ferrari Testarossa ohne Motor, das hilft der YaCy-Gemeinde einfach gar nichts!

Wenn man selbst Webseiten crawlt, dann sollte man dabei unbedingt die Suchtiefe des Crawls beachten! Eine Tiefe von 6 wie in meinem Versuch kann zwar den Index nach vorne bringen, allerdings dauert das unter Umständen sehr lange. Für solch einen gewaltigen Crawl sollte man dann doch einen etwas moderneren PC wie ich verwenden, denn so ein altes Gerät wie mein AMD64 geht hierbei gehörig in die Knie!

 

Jetzt wünsche ich euch allen ob mit oder ohne YaCy noch einen schönen (naja) Sonntag!

 

Viele Grüße aus TmoWizard’s Castle zu Augusta Vindelicorum

Y gwir yn erbyn Y byd!

Mike, TmoWizard Zaubersmilie

CC BY-NC-SA 4.0 P2P: Ein Erfahrungsbericht zu #YaCy von TmoWizard ist lizenziert unter Creative Commons Namensnennung-NichtKommerziell-Weitergabe unter gleichen Bedingungen 4.0 international.

6 Replies to “P2P: Ein Erfahrungsbericht zu #YaCy”

  1. Moin,

    bau Deinen Artikel bitte mal so um, daß die Definition, was diese komische Suchengine ist, vorn steht, weil bis diese Erklärung kommt, hatte ich schon aufgegeben zu lesen und es nur noch überflogen. Andere geben schon eher auf.

    Außerdem habe ich das Gefühl, daß du min. 10x die gleiche Erklärung/Forderung schreibst, was das Gefühl aufkommen läßt eine Wiederholung zu lesen.

    Das klappt nicht mal bei Politikern, auch wenn die das gern versuchen :)

    Grüße aus Braunschweig

    1. Hallo Marius!

      bau Deinen Artikel bitte mal so um, daß die Definition, was diese komische Suchengine ist, vorn steht, weil bis diese Erklärung kommt, hatte ich schon aufgegeben zu lesen und es nur noch überflogen. Andere geben schon eher auf.

      Da wird gar nichts umgebaut! Ganz oben ist mein entsprechendes Tutorial verlinkt und wenn Du schon hier bist, dann muß das ja wohl auch einen Grund haben. YaCy wird ja bereits in der Überschrift erwähnt, der Artikel ist somit selbsterklärend.

      Außerdem habe ich das Gefühl, daß du min. 10x die gleiche Erklärung/Forderung schreibst, was das Gefühl aufkommen läßt eine Wiederholung zu lesen.

      Zum Teil wiedrhole ich immer wieder, daß es bei YaCy zu wenige Teilnehmer gibt, das ist richtig und auch wichtig!

      Ich werde das auch immer und immer wieder wiederholen, bis es auch der letzte Dorfdepp begriffen hat, daß nicht YaCy schuld an den schlechten Suchergebnissen hat, sondern eben die fehlenden Teilnehmer.

      Bei Politikern kann das übrigens nicht klappen, da jeder Pflasterstein mehr Intelligenz besitzt. Jeder Versuch daran etwas zu ändern scheitert also schon beim Gedanken daran, folglich denke ich auch gar nicht an sowas!

       

      Grüße aus Augsburg

      Mike, TmoWizard

  2. Ich probiere YaCy auch immer wieder im Laufe der letzten Jahre, aber bin da wirklich sehr ernüchtert. Obwohl ich es für absolut notwendig halte, dass so ein wichtige Komponente wie Suchmaschinen unbedingt dezentralisiert werden müssen, um die Macht von Google zu brechen, sehe ich doch einige signifikante ProblemeRessourcenbedarf HDD – ähnlich wie BTC kann man locker einige Dutzend GB für die Indizes etc. verbrateneigene Beiträge – weder kann man die Liste der indizierten Webseiten vernünftig sichern, noch gibt es eine einfache Methode, um gemeinsam „unerwünschte“ Webseiten auf der eigenen Instanz auszuschließenkleine Entwicklergemeinschaft – es ist in den vielen Jahren keine größere Community entstanden, oder gar eine foundation welche feste Stellen sichertOhne das all zu negativ zu meinen, macht sich bei mir der Eindruck von Stagnation und Zerstückelung breit. Ähnlich wie bei federation in social media, instant messaging oder media publishing, scheinen zahlreiche Projekte sich lieber abzugrenzen, anstatt zusammen zu arbeiten und damit die kommerziellen Anbieter mal eine ernsthafte Alternative entgegen zu stellen. Derzeit ist es in meinen Augen ein recht hoher Aufwand für ein Alltagswerkzeug, dass dann nicht einmal ansatzweise an die (gewohnte) Qualität von Google rankommt. Auch trotz Idealismus bin ich da derzeit doch eher abgeneigt, sowohl als Betreiber als auch Nutzer :-/
    1. Hallo MaM,

      willkommen auf meine Castle!

      Immer wieder versuchen bringt nichts, man muß da schon dabei bleiben!

      Ressourcenbedarf HDD – ähnlich wie BTC kann man locker einige Dutzend GB für die Indizes etc. verbraten

      Soll das jetzt ein Witz sein, oder was? Eine Suchmaschine braucht natürlich massig Platz für ihren Index, Google & Co haben hierfür ganze Rechenzentren! Was glaubst Du wohl, wo die ihren Index speichern? Meinst Du vielleicht, daß die das auf Tonplatten meiseln? Dieses Argument ist ja wohl das Dümmste, welches ich jemals zu diesem Thema gelesen habe! :eek:

      eigene Beiträge – weder kann man die Liste der indizierten Webseiten vernünftig sichern, noch gibt es eine einfache Methode, um gemeinsam „unerwünschte“ Webseiten auf der eigenen Instanz auszuschließen

      Beides ist natürlich Unfug! Die Index-Dateien kann man freilich sichern, steht bei YaCy auch irgendwo in deren Wiki.

      „unerwünschte“ Webseiten muß außerdem jeder selbst auf seinem eigenen Peer auf die Blacklist setzen, nur so kann eine allgemeine Zensur verhindert werden!

      kleine Entwicklergemeinschaft – es ist in den vielen Jahren keine größere Community entstanden, oder gar eine foundation welche feste Stellen sichert

      Das wundert mich auch gar nicht, wenn jeder YaCy immer nur schlecht redet, aber keiner mitmachen und nach seinen Möglichkeiten helfen will! Das ist das Selbe wie bei den schlechten Suchergebnissen bzw. dem kleinen Index.

      Ähnlich wie bei federation in social media, instant messaging oder media publishing, scheinen zahlreiche Projekte sich lieber abzugrenzen, anstatt zusammen zu arbeiten und damit die kommerziellen Anbieter mal eine ernsthafte Alternative entgegen zu stellen.

      Und wieder das gleiche Problem: Es wird gemeckert, aber keiner macht ernsthaft mit!

      Derzeit ist es in meinen Augen ein recht hoher Aufwand für ein Alltagswerkzeug, dass dann nicht einmal ansatzweise an die (gewohnte) Qualität von Google rankommt.

      Auch hier nur mecker, mecker, mecker, mehr nicht! Noch dazu völlig sinnfreies Meckern! Hoher Aufwand? Einmal installieren und fertig ist ein hoher Aufwand? Zwischendurch eine Webseite Crawlen ist ja wohl auch nicht schwer.

      Auch trotz Idealismus bin ich da derzeit doch eher abgeneigt, sowohl als Betreiber als auch Nutzer :-/

      Also wieder das Übliche:

      Absolut sinnfreies Gemeckere, aber selbst etwas beitragen ist nicht! Keine Teilnehmer, damit auch kein ausreichender Index und somit auch keine Konkurrenz zu Google und anderen Suchmaschinen!

      Wenn alle so denken würden… aber das habe ich ja im Artikel schon geschrieben!

      Viel Spaß also weiterhin in deiner zensierten Welt

      Mike, TmoWizard

      1. Du hast eine komische Art mit Kommentaren umzugehen Mike. Schade, denn eigentlich hatte ich mich auf Austausch zu YaCy gefreut. Deshalb nur eine kurze Ergänzung:

        Deine Annahme, dass es ausschließlich mit dem zu kleinen Index zusammenhängt, kann nicht ganz stimmen. Wenn du z.B. mal nach Orten suchst, gibt es keine plausible Ordnung der Ergebnisse: http://search.yacy.net/yacysearch/index.html?query=Rostock
        Weder wird rostock.de als maximale Übereinstimmung gebracht, noch mittels Wikipedia und Semantic Web die Zusammenhänge der Provider URLs erkannt und dargestellt. Das ist ausschließlich eine Frage des Algorithmus des rankings und der Präsentation und hat weder was mit Anzahl der nodes noch mit der Verteilung der Suche zu tun.

        1. Guten Morgen MaM!

          Du hast eine komische Art mit Kommentaren umzugehen Mike.

          Ei nun, das ist mein Blog! :rofl:

          Schade, denn eigentlich hatte ich mich auf Austausch zu YaCy gefreut.

          Hierbei sehe ich nun wirklich kein Problem! Ich schreibe hier genau so, wie ich auch im normalen Leben mit anderen umgehe.

          Zu deinem restlichen Kommentar:
          „rostock.de“ ist nicht „Rostock“!
          Außerdem kann man die von dir verlinkte Demo nicht mit YaCy selbst vergleichen, es werden dort nur einige wenige Peers verwendet. Ich habe bei meinem YaCy bei „Rostock“ andere Ergebnisse wie bei dieser Demo, ein anderer Teilnehmer hat eben wieder andere Ergebnisse!

          Ein Ranking gibt es in dem Sinn bei YaCy natürlich auch nicht, denn jeder sucht nach etwas anderem, selbst wenn die selben Suchbegriffe verwendet werden.

          Google & Co gehen aber nach dem, was eben oft gesucht und gewählt wird unter einem bestimmten Begriff und präsentieren dir die entsprechenden Ergebnisse. Das nennt man „tracking“, der Begriff sollte dir eigentlich was sagen!

          Und doch, das hat sehr wohl auch was mit der Anzahl der Teilnehmer/Peers zu tun! Google & Co haben einen viel größeren Index wie YaCy und damit ist ja wohl klar, daß damit auch ganz andere Ergebnisse heraus kommen.

          Befasse dich doch bitte einmal genauer mit den verschiedenen Arten von Suchmaschinen, damit Du die Unterschiede kennen lernst. Der einfachste Anfang hierfür wäre dabei, daß Du dir verschiedene Suchbegriffe nimmst und diese bei mehreren Suchmaschinen verwendest. Dir werden zwischendurch die Augen übergehen, wie unterschiedlich die Suchergebnisse sein können!

           

          Einen schönen Tag wünsche ich dir noch.

           

          Grüße aus Augsburg

          Mike, TmoWizard :grinswiz:

Schreibe einen Kommentar zu MaM Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Kommentarlinks könnten nofollow frei sein.