Re: WebCrawler, spider, robot
Hi,
wie schreibt man sowas?
W E B C R A W L E R *g*
SCNR
Bin nciht ganz unerfahren in Programmierung, is halt nur mal
ne neue Aufgabe und im Net is dazu nich ganz so viel einfac zu
finden, wie ich das gern hätte. Dashalb bin ich für jeden Tipp
dankbar.
Im Prinzip ganz einfach. Lad dir eine html-Seite rein und geh die Zeile fuer Zeile durch.
Wenn du <meta name=content.. findest, dann musst du nur ueber Textfunktionen (left, right, mid, Regexp) die Worter raussuchen und irgendwo wegspeichern (vielleicht Datenbank?)
Dann gehst du das Dokument bis unten durch und suchst nach allem was mit <a href=... anfaengt. Die mit @ filterst du raus, die reltiven Angaben musst du durch den Server auf dem, du bist ergaenzen. Das speicherst du dir in ein Array ab und gehst jetzt _rekursiv_ mit allen Links vor wie oben! Vergiss aber nicht, eine maximale Suchtiefe einzubauen!
Ich brach einfach 'n schlichtes Ding, das den Links folgt und
mit aus den ContentTags die Texte zieht und dann nen hübschen
Bericht generiert.
gez.
Der Desian
Ciao! Bjoern