Werzwackte Frage zu robots.txt

Von: , 16.03.2010 09:17 Uhr

Liebe/-r Experte/-in,

ich habe ein etwas verzwacktes Problem mit der robots.txt...

Es gibt eine Reihe von URLs der Form

/calendar?todate=1268089200

Das sind so ein paar Millönchen URLs, die natürlich nicht indexiert werden sollen.

Da könnte man in die robots.txt natürlich schreiben:

Disallow: calendar
Disallow: /calendar

Leider geht das nicht, da dann auch URLs wie

/calendarium

o.ä. auch ausgeschlossen werden...

Nächste Idee:

Disallow: calendar?
Disallow: /calendar?

Nun meine Frage: Hätte das Fragezeichen an der Stelle eine steuernde Wirkung, oder kann man mit den beiden Zeilen wirklich erreichen, dass genau die gewünschten URLs ausgeschlossen werden?

Vielen Dank und viele Grüße,
Jan

7 Antworten zu dieser Frage

  1. Antwort von nach einer Stunde 0 hilfreich
    Re: Werzwackte Frage zu robots.txt

    Hallo Jan,

    eventuell hilft Dir diese Seite weiter:
    http://www.frontpagewebmaster.com/m-401798/tm.htm

    Hier wird erläutert, dass man mit einer Wildcard alle URLs einer bestimmten Zeichenfolge von der Indizierung ausgeschließen kann.

    Ein Beispiel in Deinem Fall:

    User-Agent: *
    Disallow: /*calendar?todate

    oder auch nur

    User-Agent: *
    Disallow: /*calendar?

    Wenn möglich, kannst Du zur Sicherheit im Template bei diesen so generierten "calendar?" Seiten auch noch das META-Tag noindex verwenden.

    Hoffe ich konnte etwas helfen.

    Gruß
    Gernot Gawlik
    (krick-interactive.com)

    • Antwort von nach 4 Stunden 0 hilfreich
      Re^2: Werzwackte Frage zu robots.txt

      Hallo Gernot,

      Dank Dir, das ist hilfreich. Noch eine kurze Rückfrage. Würde es einen Unterschied machen, ob die Zeile

      Disallow: /*calendar?todate

      oder

      Disallow: /calendar?todate

      lautet?

      Viele Grüße,
      Jan

      • Antwort von nach 5 Stunden 0 hilfreich
        Re^3: Werzwackte Frage zu robots.txt

        Vermutlich würde es in diesem Fall kein Unterschied machen. Ich würde jedoch trotzdem zu ersterem tendieren, da es hier nicht erheblich ist ob es sich um einen Ordner oder eine Datei handelt.

        Getestet habe ich die Wildcards in robots.txt noch nicht.
        Gruß
        Gernot

  2. Antwort von nach 4 Stunden 0 hilfreich
    Re: Werzwackte Frage zu robots.txt

    Sehr geehrter Herr Kron

    Wir empfehlen grundsätzlich beim Aufbau einer Website darauf zu achten, dass Dateien, welche nicht durch Suchmaschinen indexiert werden sollen, in separaten Verzeichnissen abgelegt werden. Dieses Vorgehen dient nicht nur der Übersichtlichkeit und Ordnung in der Websitestruktur, sondern ermöglicht auch den Ausschluss ganzer Verzeichnisse über die Befehlsanweisungen in der robots.txt. Somit hat man sozusagen gleich "zwei Fliegen auf einen Schlag" erwischt.


    Freundliche Grüsse,

    Christian Müller

    • Antwort von nach 4 Stunden 0 hilfreich
      Re^2: Werzwackte Frage zu robots.txt

      Hallo Herr Müller, danke für die schnelle Antwort. Da es sich um ein CMS handelt, habe ich keinen bzw. nur bedingt Einfluss auf die Verzeichnisstruktur...

      Wenn Sie noch eine andere Idee hätten, wäre ich dankbar.

      Viele Grüße,
      Jan Krohn

  3. Antwort von nach 9 Stunden 0 hilfreich
    Re: Werzwackte Frage zu robots.txt

    Hallo Jan,

    leider kann ich Ihnen bezüglich dieses Problems nicht helfen.

    Viele Grüße
    Webdesign360

  4. Antwort von nach 391 Tagen 0 hilfreich
    Re: Werzwackte Frage zu robots.txt

    Hallo,

    mit dem "?" sollte es funktionieren. Einfach mal ausprobieren und dann ein paar Tage später im Suchergebnis schauen, ob diese Links noch im Google Index stehen.

    Gruss
    Uwe hiltmann

Jetzt auf diese Frage antworten.