Wget und webseite

Hallo,

ich würde gerne mit wget Webseiten lokal spiegeln.

Dafür gibt es doch zB
wget -c http://www.webseite.de
oder auch
wget -r http://www.webseite.de

Nun ist es aber schon ein paar Mal vorgekommen, dass ich das so gerne machen würde, aber immer nur die index.html geladen wird und eine Meldung kommt, dass die robots.txt gespeichert wurde.

So wollte ich zB auch www.squid-handbuch.de herunterladen, um einfach lokal drauf zugreifen zu können.

Wie kann ich das nun ändern, damit ich nicht jede einzelne Datei herunterladen muss sondern das in einem „Aufwasch“ erledigen kann.
wget -r http://www.squid-handbuch.de/hb funzt jedenfalls nicht…

Bzw: kann mir jemand erklären, woran das liegt, dass es bei manchen Webseiten, wie zB www.tuxhausen.de funktioniert und bei anderen wiederum nicht?!
Mit welchem anderen Tool kann ich denn sowas sonst noch runterladen?!

Grüsse
schuelsche

Hallo schuelsche,

Nun ist es aber schon ein paar Mal vorgekommen, dass ich das
so gerne machen würde, aber immer nur die index.html geladen
wird und eine Meldung kommt, dass die robots.txt gespeichert
wurde.

Bzw: kann mir jemand erklären, woran das liegt, dass es bei
manchen Webseiten, wie zB www.tuxhausen.de funktioniert und
bei anderen wiederum nicht?!

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um festzulegen, auf welche Dateien/Verzeichnisse ein Robot zugreifen darf.
Alles klar?

Pürsti

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Damals, als ih mal eine externe Suchfunktion für Wer-Weiss-Was gebaut habe, hatte ich zunächst ein ähnliches Problem.

UTSL,

Se „r0b0ts.txt“ bastian

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Ok, das heisst also, dass ich die Webseite so nicht lokal speichern kann, sondern dass ich alle Dateien einzeln runterladen muss, wenn ich die haben will?!

Thx,
schuelsche

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Ok, das heisst also, dass ich die Webseite so nicht lokal
speichern kann, sondern dass ich alle Dateien einzeln
runterladen muss, wenn ich die haben will?!

Solange Du ein ungepatchtes „wget“ nimmst, liegst Du richtig.

Sebastian