P2P: Ein Erfahrungsbericht zu #YaCy

Last Updated on 2 Jahren by TmoWizard

(Edit 11.07.2017: Zur besseren Verdeutlichung wegen der Suchtiefe habe ich nun eine Grafik eingefügt!)

Liebe Leserinnen und Leser,

YaCy Logonach nun knapp 100 Tagen möchte ich hier einen Erfahrungsbericht zu meinem eigenen YaCy-Server bringen. Auch zu meinem darauffolgenden Artikel möchte ich nochmal ein Statement abgeben, denn dort gab es ja einen kleinen Disput! Eines gleich mal vorne weg: Der Server läuft natürlich immer noch! :mrgreen:

 

Die Geschwindigkeit von YaCy:

Die Geschwindigkeit bei der Suche ist ja wirklich eine Sache, die von vielen Faktoren abhängt. Hier gilt natürlich wie so oft in der IT, daß ein schnellerer Rechner natürlich auch die Geschwindigkeit von YaCy beschleunigt! Dies gilt nicht nur bei der Suche selbst, sondern logischer Weise auch beim Crawlen einer Website. Ein Rechner wie mein „normaler“ PC hier wäre gegenüber meinem Server eine tolle Bereicherung, allerdings fehlt mir derzeit leider das nötige Kleingeld dafür.

Ein weiterer Faktor ist freilich auch die eigene Anbindung an’s Internet, Glasfaser wie bei mir oder ein Kabelanschluß sind hier natürlich von Vorteil. Allerdings spielt in einem P2P-Netzwerk immer auch die Anbindung und die Anzahl der anderen Teilnehmer eine große Rolle. Ich kenne z. B. einige Leute, die haben nur 6 Mbit/s oder gar weniger zur Verfügung, das hat natürlich ziemliche heftige Auswirkungen beim Suchen wie auch beim Crawlen oder der Index-Verteilung!

Das ist nun einmal der Nachteil bei P2P, wenn nur wenige Leute mitmachen. Gleiches gilt z. B. auch bei Torrent, welches ja ebenfalls ein P2P-Netzwerk ist. Wenn dort nicht genügend Leute mit machen und dann noch ein paar mit einer miesen Anbindung dabei sind, dann dauert natürlich auch der Download entsprechend länger!

 

Das Indexieren von Websites:

Hier gibt es ja verschiedene Möglichkeiten, welche bei YaCy zur Verfügung stehen. Zum Einen natürlich das normale Crawlen einer Website, zum Anderen aber auch das Indexieren durch RSS-Feeds. Ehrlich gesagt habe ich die meisten Sites meines Index über RSS-Feeds aufgenommen, das geht wesentlich schneller! Man fügt die Feed-Adresse an der entsprechenden Stelle ein (ich erweitere passend dazu demnächst noch mein Tutorial!), ändert die Optionen nach entsprechendem Wunsch und das war es auch schon.

Das geht natürlich wesentlich schneller wie das Crawlen, allerdings entspricht das dann eben nur einer Suchtiefe von 0! Es werden also keine weiteren Links in den Artikeln beachtet, womit natürlich auch der Index langsamer wächst. Ich habe das hier jeweils so eingestellt, daß YaCy alle 6 Stunden diese Feeds überprüft. Mein Index ist damit folglich immer relativ auf dem neuesten Stand, jedoch eben nur bei mir bekannten Websites.

Hier hat ein richtiger Crawl natürlich den Vorteil, daß man dort auch noch die Suchtiefe einstellen kann. Der Standard wäre dabei eine Suchtiefe von 3, das sollte man am Besten auch so belassen! Je höher man das einstellt, desto länger dauert auch die Indexierung einer Site. Ich habe da z. B. einen Fehler begangen, ich wollte nämlich mein Castle bei einer Suchtiefe von 6 indexieren! Wie dort zu Lesen ist war das ein grober Fehler, hierfür ist solch ein alter und einfacher PC eindeutig nicht mehr geeignet! :roll:

Bei manchen Websites ist es jedoch so, daß es dort gar keinen Feed gibt! Hier bleibt einem also gar keine andere Wahl, man muß dann eben einen Crawl starten. Hierzu nun eine kurze Erklärung:

 

Die Suchtiefe:

Mit der Suchtiefe hat es die Bewandtnis, daß die meisten Webseiten natürlich auch Links zu anderen Webseiten haben. Hier kommt nun die Suchtiefe in’s Spiel, denn das ist meiner Ansicht nach äußerst wichtig! Dazu folgende Erläuterung der Suchtiefe:

  1. Es wird nur die entsprechende Website gecrawlt, Links werden nicht beachtet
  2. Hier wird auch den Links zu anderen Webseiten gefolgt
  3. Hier wird auch den folgenden Links gefolgt
  4. u.s.w. etc…

Je tiefer also die Suche geht, desto mehr Links auf den verlinkten Webseiten wird gefolgt! Das sieht dann ungefähr so aus:

  1. Webseite 0, also z. B. nur mein Blog hier
  2. Webseiten 0 und 1, z. B. das YaCy-Forum
  3. Webseiten 0, 1 und 2, vom YaCy-Forum aus geht es somit weiter zur nächsten Webseite
  4. (Standard bei YaCy) Webseiten 0, 1, 2, 3 …

Hier dazu eine entsprechende Grafik:

Schema der Suchtiefe

Ihr seht also, daß sich das potentiell steigert! Wenn ich das jetzt auf mein Blog gesehen betrachte, dann wirkt sich das ziemlich fatal aus. Ich verlinke ja in meinen Artikeln teilweise zu 3 und mehr Artikeln, welche nicht unbedingt alle auf einer einzigen Webseite zu finden sind. Da kommen dann Links zu verschiedenen Foren, Magazinen, Blogs, die Wikipedia, von denen dann ebenfalls die dortigen Links und man kann sich dann wohl gut vorstellen, daß ein Crawl bei einer Suchtiefe von 6 wie oben beschrieben für mein Castle nicht unbedingt eine gute Idee von mir war! Kopfanwandsmilie

 

Die Suchergebnisse:

Hier komme ich nun zu dem Punkt, welche ständig von allen Seiten bemängelt wird und welcher mir auch immer wieder ziemlich sauer aufstößt! Immer und immer wieder lese ich, daß die Suchergebnisse von YaCy so schlecht sind und deswegen keiner mitmachen möchte! Es ist aber genau anders herum:

Die Suchergebnisse von YaCy sind so schlecht, weil eben niemand mitmachen möchte!!

 

Ja woher sollen denn die Suchergebnisse kommen? Wenn alle so hirnverbrannt denken würden, dann gäbe es bis heute gar keine Suchergebnisse bei YaCy und Michael „Orbiter“ Christen könnte sein Projekt einmotten! Hier werden die Tatsachen vollkommen verdreht und völlig falsch dargestellt, nur durch mehr Teilnehmer kann auch der Index von YaCy weiter wachsen und die Suchergebnisse werden besser. Zudem wird die Suche auch schneller bei mehr Teilnehmern (Skalierung)!

 

Die Qualität der Suche:

Ein anderes Problem mit den Suchergebnissen wurde unter Anderem auch im Forum angesprochen, und zwar die Qualität der Suchergebnisse! Ich zitiere mal:

Nach meiner Erfahrung ist die Qualität der Suchergebnisse meist miserabel. Es wirkt so. als wären sie von einem Zufallsgenerator ausgegeben.

Öhm… ja, das stimmt irgendwie schon! Man bekommt bei YaCy ein anderes Suchergebnis wie bei anderen Suchmaschinen, wobei hierbei natürlich die Suchbegriffe eine große Rolle spielen. Ich durfte aber auch feststellen, daß es von Suchmaschine zu Suchmaschine ebenfalls große Unterschiede geben kann! Bei Bing oder Yahoo findet man z. B. mein Castle eher selten, während es bei Google mit den selben Suchbegriffen oftmals weit vorne mit dabei ist.

Allerdings spielen hier auch andere Faktoren eine Rolle, da fast alle anderen Suchmaschinen verschiedene Tracker und/oder HTTP-Cookies einsetzen, damit man entsprechende Ergebnisse bekommt. Dies ist bei YaCy jedoch nicht der Fall, entsprechend anders sind eben auch die Suchergebnisse sortiert… besser gesagt sie sind eben nicht sortiert! Man muß zur Suche also sehr genau überlegen, welche Suchbegriffe man verwendet.

 

Zur Installation:

Wie oben schon erwähnt gab es bei meinem entsprechenden Artikel ein kleinen Disput, unter Anderem auch wegen Java. Das halte ich nun für komplett idiotisch, wenn derjenige selbst PHP für seine Website verwendet, Hirnfick 2.0 ist da wohl wirklich der passende Name dafür! Sorry @tux., nichts gegen dich persönlich, aber selbst Schuld! Wer Java wegen Sicherheitsbedenken ablehnt aber gleichzeitig PHP und JavaScript (nein, das ist immer noch kein Java!) für die eigene Webseite verwendet, der hat den entsprechenden Spott wohl verdient!

Java hat wie jede andere Programmiersprache so ihre Fehler, nur benötigt man für YaCy nicht die ganze Entwicklungsumgebung von Java! Zudem ist Java sehr weit verbreitet, da auch viele Anwendungen im Netz (Internet und Intranet) damit erstellt wurden und auch immer noch werden. Dabei ist auch zu beachten, daß hier nicht das entsprechende Browser-Plugin gemeint ist, welches zum Glück eh kaum noch von modernen Browsern unterstützt wird!

Außerdem hat man YaCy im Allgemeinen bei sich zu Hause im eigenen Netzwerk auf einem einfachen Server oder auch auf dem normalen Arbeits-PC installiert, nicht für jeden frei zugänglich auf einem Server im Internet. Das würde ja auch dem Sinn einer dezentralen Suchmaschine widersprechen (eben P2P), denn die wäre dann ja wieder zensierbar und zudem auch noch an das LSR gebunden! Siehe dazu auch folgende Grafik:

Projektziel von YaCyZitat YaCy:

YaCy ist eine Suchmaschine bei dem die Nutzer selbst zum Betreiber werden. Die freie Suchmaschinensoftware YaCy läuft nicht auf einem Server im Internet, sondern auf Ihrem eigenen Rechner. So können Sie Ihr persönliches Suchportal errichten, bei dem nur Sie bestimmen was die Suchmaschine im Suchindex hat.

Die Besonderheit von YaCy ist aber, dass es sich mit den anderen Benutzern, die ebenfalls eine YaCy-Suchmaschine betreiben, verbinden kann. So entsteht ein vollständig dezentrales Peer-to-Peer Suchmaschinennetz (*.yacy) welches mit der Anzahl der Nutzer skaliert. Diese, von der Gemeinschaft der Nutzer betriebene Suchmaschine ist nicht zensierbar und speichert auch kein Nutzerverhalten an zentraler Stelle. Das Erreichen von Informationsfreiheit durch freie, dezentrale Suchsoftware ist auch ein Projektziel.

 

Mein Fazit:

Ein P2P-Netzwerk ist immer abhängig von der Anzahl der Teilnehmer, das gilt natürlich auch für YaCy als P2P-Suchmaschine! Man kann nicht über schlechte Suchergebnisse meckern und sagen, daß es deswegen so wenige Teilnehmer gibt. Die Suchergebnisse sind so schlecht, weil so wenige Leute mitmachen!

Auch kann man nicht über Java schimpfen, wenn man selbst PHP und JavaScript verwendet! Die nehmen sich Punkto Sicherheit echt nicht viel weg, wie man immer wieder lesen kann.

Ebenfalls kann niemand behaupten, daß die Voraussetzungen für YaCy viel zu hoch sind! Hier wird ein inzwischen über 10 Jahre alter AMD64 verwendet, andere Leute würden sowas auf den Schrottplatz bringen. Selbst Smartphones haben heute mehr Power wie dieser Kasten, aber für YaCy reicht so ein Gerät allemal!

Daß YaCy langsamer wie andere Suchmaschinen ist sollte eigentlich auch jedem einleuchten, der sich schon mal mit dem Thema P2P befaßt hat. Hier spielen einfach sehr viele verschiedene Faktoren eine Rolle, unter Anderem natürlich auch die eigene Anbindung an das Internet und die Anzahl und Anbindung der anderen Teilnehmer!

Ich möchte YaCy nicht schönreden, aber sie erfüllt eben ihren Zweck als Suchmaschine. Die Suchergebnisse steigen und fallen zwar mit der Anzahl der Teilnehmer, aber einige Peers wie z. B. mein eigener sorgen dafür, daß die Suchergebnisse besser werden.

Ok, mit gerade mal knapp 8 Millionen Dokumenten im Index ist mein YaCy gerade mal irgendwo im Mittelfeld der Peers zu finden. Wenn man aber bedenkt, daß mein „Server“ noch nicht mal 100 Tage alt ist und ich auch nur zwischendurch neue Seiten crawle, dann ist das eigentlich gar nicht so schlecht. Immerhin gibt es Peers, die zum Teil seit Jahren online sind und nicht einmal eine einzige Million erreicht haben! 8-O

Das ist dann übrigens ebenfalls ein Grund, warum die Suchergebnisse von YaCy nicht so berauschend sind! Was bringt mir denn die eigene Suchmaschine, wenn ich sie nicht zum Indexieren von Webseiten verwende? Das ist so sinnvoll wie ein Ferrari Testarossa ohne Motor, das hilft der YaCy-Gemeinde einfach gar nichts!

Wenn man selbst Webseiten crawlt, dann sollte man dabei unbedingt die Suchtiefe des Crawls beachten! Eine Tiefe von 6 wie in meinem Versuch kann zwar den Index nach vorne bringen, allerdings dauert das unter Umständen sehr lange. Für solch einen gewaltigen Crawl sollte man dann doch einen etwas moderneren PC wie ich verwenden, denn so ein altes Gerät wie mein AMD64 geht hierbei gehörig in die Knie!

 

Jetzt wünsche ich euch allen ob mit oder ohne YaCy noch einen schönen (naja) Sonntag!

 

Viele Grüße aus TmoWizard’s Castle zu Augusta Vindelicorum

Y gwir yn erbyn Y byd!

Mike, TmoWizard Zaubersmilie

CC BY-NC-SA 4.0 P2P: Ein Erfahrungsbericht zu #YaCy von TmoWizard ist lizenziert unter Creative Commons Namensnennung-NichtKommerziell-Weitergabe unter gleichen Bedingungen 4.0 international.

6 Replies to “P2P: Ein Erfahrungsbericht zu #YaCy”