Googlebot

bernd_0039a9 · 18. Februar 2004 um 11:19

hallo zusammen,
ich denke, es passt hier hin. ich bräuchte etwas interpretationshilfe- folgenden eintrag fand ich in meinem log-file:

64.68.82.55 - - [16/Feb/2004:08:30:33 +0100] „GET /robots.txt HTTP/1.0“ 403 280 „-“ „Googlebot/2.1 (+http://www.googlebot.com/bot.html))“ 64.68.82.55 - - [16/Feb/2004:08:30:33 +0100] „GET / HTTP/1.0“ 304 - „-“ „Googlebot/2.1 (+http://www.googlebot.com/bot.html))“

ich bin mir nicht ganz sicher, ob ich das richtig sehe-
er hat versucht, robots.txt zu lesen, das schlug fehl und dann ist er wieder verschwunden?
in dem fall hätte ich eine verständnisfrage: macht der googlebot das grundsätzlich so (verschwinden, wenn er keine robots.txt findet)?
ich habe nämlich gar keine angelegt- weil ich zu bekanntmachungszwecken meine seiten für bots erstmal komplett offen halten will (entsprechende meta-tags sind definiert).
wäre dankbar für etwas hintergrund.

greetings
bernd

deconstruct_efa77f · 18. Februar 2004 um 11:46

Hallo,

ich bin mir nicht ganz sicher, ob ich das richtig sehe-
er hat versucht, robots.txt zu lesen, das schlug fehl und dann
ist er wieder verschwunden?

Nein.

64.68.82.55 - - [16/Feb/2004:08:30:33 +0100] „GET /robots.txt
HTTP/1.0“ 403 280 „-“ "Googlebot/2.1

Das bedeutet, dass er versucht hat die Datei ‚/robots.txt‘ zu lesen. Der Webserver hat diese Anfrage mit dem Status-Code ‚403‘ (=forbidden) beantwortet. Das schlug also fehl.

64.68.82.55 - - [16/Feb/2004:08:30:33 +0100] „GET /
HTTP/1.0“ 304 - „-“ „Googlebot/2.1 (+http://www.googlebot.com/bot.html))“

Dann hat er versucht festzustellen, ob die Datei ‚/‘ (also dein Standarddokument wie z.B. index.html) seit einem bestimmten Datum geändert wurde. Welches Datum das war, ist im Log nicht zu erkennen.
Der Webserver hat dann mit dem Status-Code ‚304‘ geantwortet, d.h. „Not modified“. Er hat ihm also gesagt, dass das Dokument seit dem besagten Datum nicht verändert wurde. Und dann ist der Bot verschwunden, weil sich ja nichts geändert hat.

in dem fall hätte ich eine verständnisfrage: macht der
googlebot das grundsätzlich so (verschwinden, wenn er keine
robots.txt findet)?

Nein, er versucht auch das Root-Dokument zu lesen.
http://www.robotstxt.org/wc/faq.html

ich habe nämlich gar keine angelegt- weil ich zu
bekanntmachungszwecken meine seiten für bots erstmal komplett
offen halten will (entsprechende meta-tags sind definiert).
wäre dankbar für etwas hintergrund.

Naja, wie schauen denn deine Meta-Tags aus?
http://www.w3.org/Search/9605-Indexing-Workshop/Repo…

Außerdem ist es auch sinnvoll eine robots.txt anzulegen, in der du ihm ausdrücklich den Zugang erlaubst.
http://www.robotstxt.org/wc/exclusion.html#robotstxt

mfg
deconstruct

bernd_0039a9 · 18. Februar 2004 um 13:41

moin deconstruct,
besten dank für die ausführliche antwort und die links- da hab ich wieder was gelernt.
trotzdem hätte ich noch eine frage:

Nein, er versucht auch das Root-Dokument zu lesen.
http://www.robotstxt.org/wc/faq.html

darauf befindet sich in meinem fall ein hier besonders wichtiger link zu meiner sitemap, dem er offensichtlich nicht gefolgt ist. hast du eine ahnung warum/ bzw. wie ich ihn dazu überreden könnte, da weiter zu graben?
meine bisherige einladung war:

Naja, wie schauen denn deine Meta-Tags aus?

Außerdem ist es auch sinnvoll eine robots.txt anzulegen, in
der du ihm ausdrücklich den Zugang erlaubst.

schon erledigt

greetings
bernd

deconstruct_efa77f · 18. Februar 2004 um 14:15

Hallo,

Nein, er versucht auch das Root-Dokument zu lesen.

darauf befindet sich in meinem fall ein hier besonders
wichtiger link zu meiner sitemap, dem er offensichtlich nicht
gefolgt ist. hast du eine ahnung warum/ bzw. wie ich ihn dazu
überreden könnte, da weiter zu graben?

Hmm, also Googlebot sollte allen SRC und HREF Tags auf deiner Seite folgen. Er macht das normal nur nicht, wenn du’s ihm verboten hast.
Du könntest mal dein Root-Dokument hier eintragen, und dann schauen, was die Logs deines Web-Servers hergeben:
http://www.google.com/addurl.html
Dann wissen wir vielleicht mehr.

meine bisherige einladung war:

Gut, das würde eigentlich passen.

mfg
deconstruct

bernd_0039a9 · 18. Februar 2004 um 20:23

tja…
hi,

Seite folgen. Er macht das normal nur nicht, wenn du’s ihm
verboten hast.

hmpf: hab ich nicht (wie gesagt- alles index und follow…)

Du könntest mal dein Root-Dokument hier eintragen, und dann
schauen, was die Logs deines Web-Servers hergeben:
http://www.google.com/addurl.html
Dann wissen wir vielleicht mehr.

tat ich bereits vor geraumer zeit (auf der deutschen seite)
etwas rätselhaft, das…

greetz
bernd

deconstruct_efa77f · 18. Februar 2004 um 21:47

Hallo,

ich kann das leider nicht nachvollziehen oder reproduzieren. Bei mir macht er das nämlich genauso. Aber irgendwas muss bei dir anders sein, weil der Googlebot ja wohl kaum eine bestimmte Abneigung gegen irgendwelche Seiten hat

mfg
deconstruct

bernd_0039a9 · 19. Februar 2004 um 12:53

moinmoin,

Bei mir macht er das nämlich genauso. Aber irgendwas muss bei
dir anders sein, weil der Googlebot ja wohl kaum eine

das einzige, was mir dazu einfiele wäre, dass ich es evtl. mit den keywords etwas zu gut gemeint habe- ansonsten ist alles simpel: text und bild in tabelle, sonst nix (auch keine hinterlist

*kopfkratz*
bernd