Was ist ein Suchmaschinen Spider bzw Robot?

Das Web steht nie still und verändert sich unaufhaltsam. Was heute noch aktuell ist, wird bereits morgen der Vergangenheit angehören. Täglich werden unzählige neue Webseiten ins Netz gestellt, die bereit sind Besucher zu empfangen. Damit eine Suchmaschine neue Webseiten findet und alte Webseiten auf neue Inhalte kontrollieren kann, werden so genannte Suchmaschinen-Spider eingesetzt.

Wieso sind Suchmaschinen-Spider so wichtig für das Web und was machen diese genau?

Ein Spider, der auch “Robot” oder “Crawler” genannt wird, ist ein von den Suchmaschinen entwickeltes Programm. Der Spider ist ohne Pausen im Web unterwegs, aber nicht alleine, sondern sehr zahlreich. Die Spider haben die Aufgabe den Webseitenbestand frisch und auf dem aktuellen Stand zu halten. Alle gesammelten Informationen, die ein Spider im laufe seiner nie endenden “Reise” sammelt, werden in riesigen Datenbanken gesammelt und ausgewertet.

Was macht der Suchmaschinen-Spider?

Der Spider bewegt sich durchs Web und hält Ausschau nach Websites und deren Unterseiten, indem er jede einzelne Webseite besucht und allen enthalten Links folgt, um zu allen vorhandenen Verzeichnissen und den Dokumenten zu gelangen. Das heißt nichts anderes, dass früher oder später jede Webseite, die auf dem Webspeicher abgelegt wurde und zu der auch ein Link gesetzt ist, von einem Suchmaschinen-Spider entdeckt wird.

Die Spider haben geregelte Aufgaben zu erfüllen und machen nur die Arbeit, mit der sie beauftragt wurden. Ein bestimmter Spider-Typ hat die Aufgabe Webseiten zu besuchen und die gesammelten Daten in einer Datenbank abzuspeichern. Ein anderer Spider bewegt sich von einer Webseite zu der nächsten, die bereits indiziert wurden und hat nur die Aufgabe zu überprüfen, ob die Webseite erreichbar ist. Wurde eine gelöschte oder nicht mehr aufrufbare Webseite gefunden, wird diese aus dem Index entfern.

Man kann sagen, dass dieser Typ von Spider die Datenbank bereinigt und für Ordnung sorgt. Ein weiterer Spider-Typ wertet die Daten aus, die ein anderer Spider in der Datenbank abgespeichert hat. Wie Sie feststellen können, leisten die Spider eine fabelhafte Teamarbeit und stellen sich nicht gegenseitig im Weg. Jeder Spider macht nur das, worauf er programmiert wurde, nichts anderes.

Kleiner Tipp: Sie müssen wissen, das eine neue Webseite nicht von heute auf morgen in den Suchergebnisseiten einer Suchmaschine erscheinen wird. Bis eine neue Webseite von einem Spider gefunden und in den Suchergebnissen erscheint, können Wochen oder Monate vergehen. Daher sollte Ihre Website immer erreichbar sein, denn wenn sie von einem Spider für „tot“ erklärt wurde, wird sie aus der Datenbank gelöscht. Es kann eine Weile dauern, bis der nächste Spider auf der Website wieder vorbeischaut und diese in die Datenbank wieder aufnimmt.

Achten Sie unbedingt darauf, dass Sie bei der Wahl des Webhosters besonders auf eine durchschnittliche Erreichbarkeit von mindesten 99% achten müssen. Auch die Ladezeit der Website sollte möglichst kurz sein. Wenn die Webseite zu einem falschen Zeitpunkt nicht erreichbar ist oder sehr langsam lädt, wird sie unter Umständen aus der Datenbank gelöscht.

Wie können Sie verhindern, dass ein Spider bestimmte Bereiche und Dokumente nicht verarbeitet?

Da ein Spider zu allen Dokumenten und Ordnern freien Zugang hat, die er über einen Link besucht, kann er alle Bereiche Ihrer Website auswerten und indexieren. Wenn Sie dem Spider keine abgeschlossenen Türen in den Weg stellen, wird er auch die geschützten Bereiche und Dokumente in den Index aufnehmen, die nicht jedem zur freien Verfügung stehen sollten.

Veröffentlicht unter Blog

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>