Textsucheprogr. in vorgegebene! Internetseiten

Von: , 09.03.2011 12:14 Uhr

Meine Anwendung: Finden einer passenden Immobilie über Stichwörter bei Immobörsen / Immobilienmaklern, die keine Suchmaske oder kein Suchfeld für Stichwörter haben.

Die Stichwörter (spezielle Details wie Garage, Keller, Wald, Teich, See) kommen mehr oder weniger häufig in den Inseraten vor. D.h. ich würde mir viel Zeit bei einer automatisierten Suche ersparen, weil ich mir Inserate mit unpassenden Immobilien nicht mehr durchlesen müsste.

Meine bisherige Recherche und Programmsuche hat ergeben, dass dafür ein Crawler / Spider / Bot geeignet ist.

Allerdings habe ich bis jetzt nur Programme gefunden, die einzelne Suchen, aber keine automatisierte Suche ermöglichen. Einzelne Suche: 1 Domain mit 1 Stichwort. (Eine solche Suche ist auch mit Suchmaschinen möglich.) Automatisierte Suche: mehrere Domains nacheinander (laut einer Liste); jede Domain mit mehreren Stichwörtern (laut einer Liste).

Es wäre auch angenehm, wenn ich die beiden Listen nicht eintippen muss, sondern in die entsprechenden Programmfelder hineinkopieren kann (STRG+V); bzw. das Programm die beiden Listen aus externen (Text)Dateien mittels einer Verknüpfung übernimmt.

Suchergebnis: Link oder abgespeicherte Seite

Kennt Ihr ein passendes Programm? Ist man bei einer solchen Suche mit einem Crawler / Spider / Bot immer erfolgreich, da Seitenbetreiber unerwünschte Suchen blockieren?

LG, Mike Code
________________

3 Antworten zu dieser Frage

  1. Antwort von nach einer Stunde 0 hilfreich
    Re: Textsucheprogr. in vorgegebene! Internetseiten

    Hallo,
    leider kann ich Dir da nicht viel weiterhelfen. Soweit ich das noch im Hinterkopf habe, kann der Provider auch die Bot's bzw. Spider sperren. Auch auf meiner Domain ist das möglich und wird auch in der Statistik angezeigt, welcher Bot oder Spider wann eine Abfrage gemacht hat. Typisch ist bei mir Googlebot, SurveyBot, Netcraft und Nutch.

    Die Idee eines solchen Programmes hat aber schon was ;-)

    gruß
    Stoppi

  2. Antwort von nach einer Stunde 0 hilfreich
    Re: Textsucheprogr. in vorgegebene! Internetseiten

    Meine Empfehlung ist der Firefox. Da hast Du den Sucher unten links und kannst nach unten oder nach oben suchen und die Suche auch noch "hervorheben" lassen.

    Anderer Tipp
    Wenn die gefundene Anzeige im Browser hast, tippe deine Stichworte in die Google-Such-Bar und aktiviere das Markierungs-Symbol.

    cu ld

  3. Antwort von nach 7 Stunden 0 hilfreich
    Re: Textsucheprogr. in vorgegebene! Internetseiten

    Ein eigener Crawler macht nichts anderes als auch eine Suchmaschine macht:
    Er indiziert die erreichbaren Inhalte von Webseiten, damit du später schneller deine eigentliche Suche nach den Keywords (Suchwörtern)starten kannst.

    Der Aufwand steht in keinem Verhältnis mit dem Nutzen, wenn du die Suche nicht immer wieder benutzt.

    ---

    Seitenbetreiber können Crawler auf verschiedene Arten aussperren:

    robots.txt
    Hier steht drin, welcher Crawler/Bot/Agent auf welche inhalte zugreifen darf. Der Crawler muss sich nicht daran halten, jedoch wird es von seriösen Bots erwartet, dass sie es machen

    .htaccess
    Auch hier kann man eine ähnliche Liste platzieren wie in der robots.txt. Zugleich kann man jedoch auch Crawler aktiv daran hindern die Seite/Inhalte zu betreten.

    Eine weitere Sperrmöglichkeit besteht in einer weiteren Sperre.
    Hier werden alle Benutzer ausgeschlossen, wenn sie ein bestimmtes Limit an Zugriffen in einer bestimmten Zeitspanne überschreiten.
    Der Benutzer/Crawler, der dieses (nicht erkennbare) Limit überschreitet, wird für eine gewisse Zeit vollständig ausgesperrt.

    Normale Crawler halten sich an all diese Regeln. Deshalb wird eine einzelne Internetseite mit viel Content auch nicht an einem Tag "gescannt", sondern der Crawler kommt immer wieder... bis er endlich "alles" hat. Das kann durchaus einige Monate dauern (da er sich ja immer wieder an die verschiedenen Sperren anpassen musst und zwischenzeitlich immer mal wieder für einige Tage/Stunden blockiert wird)

    Einem befreundeten Serverbesitzer habe ich absichtlich einmal alle Sperren geöffnet, damit sein Crawler alle Inhalte ihn möglichst kurzer Zeit erfassen und indizieren kann. Sowas setzt aber voraus, dass man sich kennt.Das ist aber normalerweise nicht üblich.

    ---
    Insgesamt kämpfst du also mit einem eigenen Crawler gegen technische und finanzielle Hindernisse, da der Bot ja gleichzeitig einen Server benötigt und relativ viel Speicherplatz für die Ergebnisse. Dann kommt noch der "Faktor Zeit" hinzu.
    Der eigene Crawler lohnt sich m.E. deshalb nur dann wenn man die Ergebnisse langfristig und gewerblich auswerten möchte.
    ==========
    Einfacher und schneller geht es wirklich mit den üblichen Suchmaschinen.
    Suchwort eingeben und dann immer mehr Einschränkungen hinzufügen.
    In der Regel setzte man diese dann in "xxxx yyy zzz" und stellt als Bedingung "mit allen Wörtern" ein.
    Das reduziert die Treffer immer weiter... der Rest ist dann einfaches Kombinieren und Lesen.

    Jetzt auf diese Frage antworten.