WebCrawler, spider, robot

Von: , Frage gestellt am Mi, 2. Mär 2005

Hi,

wie schreibt man sowas?
Bin nciht ganz unerfahren in Programmierung, is halt nur mal ne neue Aufgabe und im Net is dazu nich ganz so viel einfac zu finden, wie ich das gern hätte. Dashalb bin ich für jeden Tipp dankbar.

Ich brach einfach 'n schlichtes Ding, das den Links folgt und mit aus den ContentTags die Texte zieht und dann nen hübschen Bericht generiert.

gez.
Der Desian

1 Antworten zu dieser Frage

  1. Antwort von nach 14 Minuten 0 hilfreich
    Re: WebCrawler, spider, robot

    Hi,

    wie schreibt man sowas?
    W E B C R A W L E R *g*

    SCNR Bin nciht ganz unerfahren in Programmierung, is halt nur mal
    ne neue Aufgabe und im Net is dazu nich ganz so viel einfac zu
    finden, wie ich das gern hätte. Dashalb bin ich für jeden Tipp
    dankbar.
    Im Prinzip ganz einfach. Lad dir eine html-Seite rein und geh die Zeile fuer Zeile durch.

    Wenn du <meta name=content.. findest, dann musst du nur ueber Textfunktionen (left, right, mid, Regexp) die Worter raussuchen und irgendwo wegspeichern (vielleicht Datenbank?)

    Dann gehst du das Dokument bis unten durch und suchst nach allem was mit <a href=... anfaengt. Die mit @ filterst du raus, die reltiven Angaben musst du durch den Server auf dem, du bist ergaenzen. Das speicherst du dir in ein Array ab und gehst jetzt _rekursiv_ mit allen Links vor wie oben! Vergiss aber nicht, eine maximale Suchtiefe einzubauen! Ich brach einfach 'n schlichtes Ding, das den Links folgt und
    mit aus den ContentTags die Texte zieht und dann nen hübschen
    Bericht generiert.

    gez.
    Der Desian
    Ciao! Bjoern

Keine passende Antwort gefunden? Jetzt eigene Frage stellen!