kann mir jemand erklären, wie ich eine Suchmaschine wie AltaVista, Infoseek & co per CGI abfragen kann, und das so, dass ich die Ergebnisse selbst noch auswerten und anzeigen kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann müsst ich nur Port & protokoll wissen…
Wie machen dies die Meta-Suchmaschinen oder Link-Checker?
Wie machen dies die Meta-Suchmaschinen oder Link-Checker?
Sie machen ganz normale http-requests, und picken sich aus den html-daten die sie zurückbekommen die Suchergebnisse aus.
Die werden dann noch aufbereitet (duplkate raus usw.) und ausgegeben.
Dazu muß die Metasuchmaschine natürlich die aufzurufende seite genau kennen.
Wie machen dies die Meta-Suchmaschinen oder Link-Checker?
Sie machen ganz normale http-requests, und picken sich aus den
html-daten die sie zurückbekommen die Suchergebnisse aus.
Die werden dann noch aufbereitet (duplkate raus usw.) und
ausgegeben.
Whow, hätte ich nicht gedacht. Das muss doch extrem aufwändig sein, denn die Seiten-Analyse muss dann ja immer angepasst werden, sobald sich das Seitenlayout ändert…
kann mir jemand erklären, wie ich eine Suchmaschine wie
AltaVista, Infoseek & co per CGI abfragen kann, und das so,
dass ich die Ergebnisse selbst noch auswerten und anzeigen
kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann
müsst ich nur Port & protokoll wissen…
Ansonsten, wenn keine spezielle API verfügbar ist, kann
man die Formularfelder der Suchmaschine per CGI-Skript
ausfüllen und das Suchergebnis filtern. Ein Beipiel
zum Filtern der HTML-Seiten findet sich bei Michael
Schilli:
kann mir jemand erklären, wie ich eine Suchmaschine wie
AltaVista, Infoseek & co per CGI abfragen kann, und das so,
dass ich die Ergebnisse selbst noch auswerten und anzeigen
kann. Gibt es da eine spezielle Schnittstelle/Protokoll? Dann
müsst ich nur Port & protokoll wissen…
Noch ein zwei interessante Sachen dazu gefunden:
CPAN-Modul WWW:Search als API zu den meisten exisitierenden
Websuchmaschinen: