Re: Experten bitte melden! 
hehe, hab mal selber ein wenig recherchiert, ich hoff mal diese beiden texte können meine Thesen ein wenig untermauern 
Quelle: Chip.de
http://sunburn.informatik.uni-tuebingen.de/misc/doc/…
_[…]
Daher basieren fast alle Suchmaschinen auf einem Automatismus, dessen wesentliche Stütze sogenannte Spider (zu deutsch "Spinnen”) darstellen. Dabei handelt es sich um Programme, die das Internet kon- tinuierlich durchsuchen. Ein Spider startet auf der Homepage eines Servers und verfolgt nacheinander alle Links. Auf diese Weise bewegen sich Spider seitenweise über den Server. Trifft ein Spider auf eine neue oder geänderte Seite, wird aus dieser eine Liste mit Schlüsselwörtern generiert, und die Datenbank der jeweiligen Suchmaschine entsprechend aktualisiert. Datensätze werden entfernt, falls die Seiten mittlerweile gelöscht wurden. Die einzige Aktion, die vom Betreiber des Servers manuell vorgenommen werden muß, ist die einmalige Anmeldung der Domäne. Was der Spider aber genau durchsucht, läßt sich ebenfalls beeinflussen - wer sich mit der Syntax der Datei „robots.txt“ auskennt, kann einem Spider den Zutritt zu bestimmten Verzeichnissen in seinem Web-Angebot untersagen. Der Umgang mit diesem File, das auch nicht alle Such-Spider abfragen, setzt allerdings etwas Erfahrung voraus. Genaue Infos über die Funktion gibt es beispielsweise auf den Robots-Pages von Webcrawler info.webcrawler.com/mak/projects/robots/robots.html
Obgleich die Scangeschwindigkeit immens ist (AltaVista untersucht 6 Millionen Seiten pro Tag), ändert sich das Netz viel zu schnell, als daß neue Informationen unmittelbar berücksichtigt werden könnten. Die Spider der Suchmaschine Hotbot arbeiten mit einem Turnus von zwei Wochen - so besteht kaum eine Chance, einen eben erschienenen Artikel zu finden. Infoseek und AltaVista versuchen das Problem zu entschärfen, indem sie ohne feste Intervalle ihre Spider auf die Suche schicken. Statt dessen werden Seiten, die in der Vergangenheit bereits häufiger aktualisiert wurden, in kürzeren Intervallen untersucht. Ein weiteres Problem ist, daß Spider nicht alle Seiten im Netz finden können. Einige wenige Suchmaschinen setzen überhaupt keine Spider ein. Hier melden sich die Benutzer entweder manuell an oder die Seiten werden redaktionell erfaßt. Bei derartigen Systemen ist der Seitenbestand entsprechend kleiner, das Angebot aber besser kategorisiert. Einige Suchmaschinen, zum Beispiel Infoseek, erfassen die Daten zwar per Spider, bieten aber ein zusätzliches, redaktionell betreutes Verzeichnis an.
[…]_
Ich bin auch mal dem Link gefolgt, den sie da angeben:
von: http://info.webcrawler.com/mak/projects/robots/faq.html
_How does a robot decide where to visit?
This depends on the robot, each one uses different strategies. In general they start from a historical list of URLs, especially of documents with many links elsewhere , such as server lists, „What’s New“ pages , and the most popular sites on the Web.
Most indexing services also allow you to submit URLs manually , which will then be queued and visited by the robot.
Sometimes other sources for URLs are used, such as scanners through USENET postings, published mailing list achives etc.
Given those starting points a robot can select URLs to visit and index, and to parse and use as a source for new URLs._
Da steht aber nix, davon dass er zufällig mal draufstösst, hehe, ausser vielleicht: „…mailing list archives etc.“ 
bruno