HTML Linkextraktion mit Java

Hallo Experten,

ich möchte gerne ein Java-Programm schreiben, das es einem benutzer ermöglicht alle Dokumente automatisiert, die über eine HTML-Seite via Link erreichbar sind, herunterzuladen.

Bsp.: Usereingabe: http://www.SeiteMitLinksZuDokumenten.de

Programm:

  1. Entgegennahme der URL, Extraktion der Links (nur der Links, die zu Dokumenten führen)
  2. Download der gefundenen Dokumente über entsprechende Links veranlassen.

Mehr soll das Programm erstmal nicht können. Ich habe bereits 2 Links zu solchen Sourceforge-Projekten gefunden, leider verwiesen diese auf nicht mehr existierende Seiten. Somit konnte ich leider damit nichts anfangen.
Könnt ihr mir eine Antwort auf das Problem geben?

Vielen Dank im Voraus für eure Antworten

5m

H!

Programm:

  1. Entgegennahme der URL, Extraktion der Links (nur der Links,
    die zu Dokumenten führen)

Was heißt „Dokumente“?

Könnt ihr mir eine Antwort auf das Problem geben?

Das Problem ist etwas zu allgemein formuliert. Du kannst kaum erwarten, dass da jemand komplette Lösungen liefert. Je nach Anforderung an das Programm liegt die Lösung irgendwo zw. dem Schreiben eines vollständigen html-Parsers und einer quick-and-dirty-Lösung mit Regulären Ausdrücken.

Major

Hallo nochmal!

Beim Gugeln nach java wget findet sich doch Einiges, z.B.:
http://koala.ilog.fr/plh/generator/wg
Ich muss sagen, ich mache wenig Web-Sachen mit Java, weiß deshalb nicht so gut, was Java da bietet.

Major

H!

Programm:

  1. Entgegennahme der URL, Extraktion der Links (nur der Links,
    die zu Dokumenten führen)

Was heißt „Dokumente“?

Mit Dokumenten meine ich nur, dass keine Links auf externe Seiten heruntergeladen werden sollen, sondern nur z.B. alle Links zu Word/Excel/OpenOffice-Dokumenten etc.

Das Problem ist etwas zu allgemein formuliert. Du kannst kaum
erwarten, dass da jemand komplette Lösungen liefert. Je nach
Anforderung an das Programm liegt die Lösung irgendwo zw. dem
Schreiben eines vollständigen html-Parsers und einer
quick-and-dirty-Lösung mit Regulären Ausdrücken.

Ich habe auch an einen HTML-Parser gedacht. Mit regurären Ausdrücken könnte es so eine Sache werden. Wäre super, wenn jemand einen guten Parser bereits zur Hand hätte.

Vielen Dank nochmals für eure Antworten.

5m