Was sollte in robots.txt ?

Anonym_f2b6f54cfd38 · 1. Februar 2001 um 10:09

Hallöchen
ich stelle immer wieder etliche Zugriffsversuche auf ein bei meiner HP nicht vorhandenes robots.txt fest.
Was sollte den da drinstehen, um die bots optimal mit den Seiteninformationen zu versorgen, bzw. holen sich die ihre Daten sonst auch von meinen anderen Seiten? Schliesslich hab ich ja ein Interesse daran, überall in den engines auch gelistet zu werden…
schonmal Dank für die Tips
Michael

Anonym · 1. Februar 2001 um 11:52

ich stelle immer wieder etliche Zugriffsversuche auf ein bei
meiner HP nicht vorhandenes robots.txt fest.
Was sollte den da drinstehen, um die bots optimal mit den
Seiteninformationen zu versorgen, bzw. holen sich die ihre
Daten sonst auch von meinen anderen Seiten? Schliesslich hab
ich ja ein Interesse daran, überall in den engines auch
gelistet zu werden…

Hier findest Du Infos zum Zweck udn Aufbau der Datei ‚robots.txt‘:
http://ideenreich.com/dr-rob2.shtml
Sie sagt den Suchmaschinen eigentlich nur, ob Du den Zugriff für sie erlaubst und welche Bereiche sie nicht indizieren sollen. Ob sie sich daran halten ist ein zweites Thema.

Wie Du Suchmaschinen ‚optimal‘ mit Material versorgst fndest Du z.B. hier:
http://www.fireball.de/meta_daten.html

Klaus

Anonym · 1. Februar 2001 um 15:16

Hallo Michael,

Robots sind automatisierte Computerprogramme die von Suchmaschinen durch das Internet geschickt werden um URL`s aufzufinden.
Viele dieser Robots durchkämmen täglich das Web und greifen dabei auf eine Unmenge von URLs zu. Manche Suchmaschinen können nahezu den gesamten Inhalt einer Site in den Index aufnehmen, nicht nur ein oder zwei Seiten.

Was passiert aber, wenn bestimmte Teile Ihrer Website vertrauliche Informationen enthalten? Oder wie geht man mit Seiten um, die sich noch in der Entwicklung befinden und für die öffentliche Bewertung noch nicht zur Verfügung stehen sollen? Wie können sie Teile Ihres Territoriums oder die gesamte Site vor der Robots/Suchmaschinen oder anderen Computerprogrammen abschirmen?

Die Lösung liegt im Gebrauch der strukturierten Textdatei, die man als robots.txt bezeichnet, einem Teil des Robots Exclusion Standard. Die robots.txt-Datei gibt Computerpgrammen die Anweisung, daß Ihre Website oder bestimmte Teile daraus nicht zugänglich sind.

Wenn diese Datei im Root Verzeichnis ihrer Homepage gefunden wird, durchsucht der Suchmaschinen-Robot nur die angegebenen Verzeichnisse. Diese Datei ist eine einfache Textdatei, und hat folgenden Aufbau:

User-agent: bird
Disallow: /cgi-bin/
User-agent: Northstar
Disallow: /cgi-bin/
Disallow: /geheim/
User-agent: *
Disallow: /privat/

Zu Erklärung:
Unter User-agent wird der Name der betreffenden Suchmaschinen/Robot angegeben, oder ein * für alle Suchmaschinen. Per Disallow legen sie fest, welche Verzeichnisse nicht indiziert werden sollen. Den User-agent: * bitte immer als letzten angeben.

Dennoch sollten Sie kein Material auf dem Internet ablegen, das auf keinen Fall von unautorisierten Personen gesehen werden darf, denn ein vollständiger Schutz kann durch die robots.txt nicht gewährleistet werden.

Die robots.txt-Datei ist kein Schild gegen unerlaubtes Betreten Ihrer Site, sondern lediglich eine Empfehlung an die Webgemeinschaft, wie ein Suchprogramm vorgehen sollte. Hinter diesem empfohlenen Standard steht weder eine offizielle Organisation noch ein Gesetz. Erwägen Sie immer auch die Möglichkeit, daß sich irgendwer da draußen einfach nicht an die Standards halten will.
Quelle: http://www.webpromotion-tipps.de/

Viele Gruesse

Marcel Jung

Anonym · 2. Februar 2001 um 08:46

Hallo Michael!

Hier ein paar Links, die dir weiterhelfen:

http://www.klug-suchen.de/texte/roboter.html
http://www.bjoernsworld.de/suchmaschinen/robots-txt
http://www.surf-tech.de/6.html
http://www.webmeister.ch/secrets/robots.htm
http://www.webspecial.de/robots.htm

…falls diese nicht reichen, gib mal bei http://www.altavista.de den Suchbegriff „robots.txt“ ein und du findest alles, was du suchst!

Liebe Grüße!

Diana ;o)