Selbstgebauter Spiderbot?

mike_river · 10. November 2019 um 12:47

Hallöchen,

ich möchte ein Progrämmchen basteln, welches mir in etwa unten stehende Funktionalität zum Verarbeiten von HTML bietet.
Eigentlich brauche ich nur einen Hinweis, wo es passende HTML-Verarbeitungs-Klassen gibt (und wie sie heißen), damit ich nicht bei Null anfangen muss…

Ziel: Eine HTML-Seite parsen und nach Links durchsuchen.
Ausgabe etwa derart, einfach in Textform richtung Stdout:

Beispiel
Seite „url“ enthält 21 Links.
Link 1 (Textlink) Text „ABC DEF“ Verweis „ABC.html“ Ziel ist „html“ und "
Link 2 (Imagelink) Image „abc.jpg“ Verweis „meinText.doc“ Ziel ist „doc“ und "
…

Puni · 10. November 2019 um 12:47

Moin,

für die besagten Funktionen würden wohl wenige JDK-interne Klassen reichen:

BufferedReader - Lesen der HTML-Datei
String - Heraussuchen der Informationen, die für die Links notwendig sind
URLConnection - Aufbau einer Verbindung zur URL

Es müsste halt die komplette Datei „durchlaufen“ und in jeder Zeile nach Teilen wie werden. Sobald ein Link gefunden wurde, wird dieses herausextrahiert und mit der URLConnection auf Existenz geprüft.

Gruß,
Puni