Robot

Liebe/-r wer-weiss-was Experte/-in,

ich kenne mich selbst sehr gut mit PHP und anderen Programmiersprachen aus, jedoch bin ich auf ein Problem gestoßen mit dem ich noch nie zu tun hatte.

Ich habe einen Robot entwickelt der Suchmaschinen durchsucht und die Seiten, die die Suchmaschine zurück gibt ausliest und nach bestimmten Kriterien durchsucht.
Jedoch kommt es dabei oft vor das diese Datei lese geschützt sind. Wahrscheinlich durch sogenannte robot.txt

Gibt es eine Möglichkeit diesen Leseschutz zu hintergehen?

wenn es einen weg gebe, den leseschutz, der existiert um roboter wie deinen zu hindern, wäre der robotschutz ja ziemlich … naja. umsonst.

nicht sehr konstruktiv, die antwort - gebe ich zu =) ich weiß es auch nicht. aber denke nicht, aus oben genannten gründen …

  • stefan

Ich habe mich zwar bisher noch nie mit diesem Thema beschaeftigt, aber eigentlich sollte es reichen dem Server vorzugaukeln, du seist ein Browser, also wenn du nicht genau weisst, vielleicht reicht es auch schon als User Agent nur eine Browser typische Angabe zu machen. Nach dem gleichen Prinzip funktioniert AFAIK wget, das macht es auch moeglich die robots.txt zu ueberwinden.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]