Wget und webseite

Schuelsche · 7. November 2019 um 18:54

Hallo,

ich würde gerne mit wget Webseiten lokal spiegeln.

Dafür gibt es doch zB
wget -c http://www.webseite.de
oder auch
wget -r http://www.webseite.de

Nun ist es aber schon ein paar Mal vorgekommen, dass ich das so gerne machen würde, aber immer nur die index.html geladen wird und eine Meldung kommt, dass die robots.txt gespeichert wurde.

So wollte ich zB auch www.squid-handbuch.de herunterladen, um einfach lokal drauf zugreifen zu können.

Wie kann ich das nun ändern, damit ich nicht jede einzelne Datei herunterladen muss sondern das in einem „Aufwasch“ erledigen kann.
wget -r http://www.squid-handbuch.de/hb funzt jedenfalls nicht…

Bzw: kann mir jemand erklären, woran das liegt, dass es bei manchen Webseiten, wie zB www.tuxhausen.de funktioniert und bei anderen wiederum nicht?!
Mit welchem anderen Tool kann ich denn sowas sonst noch runterladen?!

Grüsse
schuelsche

Puerstinger_Josef_6eca50 · 7. November 2019 um 18:54

Hallo schuelsche,

Nun ist es aber schon ein paar Mal vorgekommen, dass ich das
so gerne machen würde, aber immer nur die index.html geladen
wird und eine Meldung kommt, dass die robots.txt gespeichert
wurde.

…

Bzw: kann mir jemand erklären, woran das liegt, dass es bei
manchen Webseiten, wie zB www.tuxhausen.de funktioniert und
bei anderen wiederum nicht?!

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um festzulegen, auf welche Dateien/Verzeichnisse ein Robot zugreifen darf.
Alles klar?

Pürsti

Sebastian · 7. November 2019 um 18:55

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Damals, als ih mal eine externe Suchfunktion für Wer-Weiss-Was gebaut habe, hatte ich zunächst ein ähnliches Problem.

UTSL,

Se „r0b0ts.txt“ bastian

Schuelsche · 7. November 2019 um 18:55

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Ok, das heisst also, dass ich die Webseite so nicht lokal speichern kann, sondern dass ich alle Dateien einzeln runterladen muss, wenn ich die haben will?!

Thx,
schuelsche

Sebastian · 7. November 2019 um 18:55

Hallo,

Des Rätsels Lösung dürfte im robots.txt liegen. Unter
http://www.robotstxt.org/wc/exclusion.html#robotstxt
kannst Du nachlesen, dass diese Datei verwendet wird, um
festzulegen, auf welche Dateien/Verzeichnisse ein Robot
zugreifen darf.
Alles klar?

Ok, das heisst also, dass ich die Webseite so nicht lokal
speichern kann, sondern dass ich alle Dateien einzeln
runterladen muss, wenn ich die haben will?!

Solange Du ein ungepatchtes „wget“ nimmst, liegst Du richtig.

Sebastian