Hallöchen,
ich möchte ein Progrämmchen basteln, welches mir in etwa unten stehende Funktionalität zum Verarbeiten von HTML bietet.
Eigentlich brauche ich nur einen Hinweis, wo es passende HTML-Verarbeitungs-Klassen gibt (und wie sie heißen), damit ich nicht bei Null anfangen muss…
Ziel: Eine HTML-Seite parsen und nach Links durchsuchen.
Ausgabe etwa derart, einfach in Textform richtung Stdout:
Beispiel
Seite „url“ enthält 21 Links.
Link 1 (Textlink) Text „ABC DEF“ Verweis „ABC.html“ Ziel ist „html“ und "
Link 2 (Imagelink) Image „abc.jpg“ Verweis „meinText.doc“ Ziel ist „doc“ und "
…