Dietmar: Frage zum Wiki-Artikel „Robots.txt“

problematische Seite

Frage:

Auf der Seite steht zu Disallow:

Wildcards wie * oder . sind dabei nicht erlaubt.

Was genau bewirkt dann ein

disallow: *

Ahoi! Dietmar

  1. problematische Seite

    Tach!

    Auf der Seite steht zu Disallow:

    Wildcards wie * oder . sind dabei nicht erlaubt.

    Was genau bewirkt dann ein

    disallow: *

    Beachte bitte die beiden "Beachten Sie" am Anfang der Seite. Alle Angaben in dieser Datei bewirken jeweils das, was die Bot-Programmierer implementiert haben. Eine generelle Vorgabe gibt es nicht und wie die Bots drauf reagieren ist eine Einzelfallfrage.

    dedlfix.

  2. problematische Seite

    Das

    disallow: *
    

    findet sich unter "Erweiterungen des ursprünglichen Protokolls". Also halten sich die Robots, welche dem Protokoll wohl, aber der Erweiterung nicht folgen, an die altere und einfachere Regel und "verbieten" den Zugriff auf alles, was mit dem Zeichen '*' beginnt.

    (U.a.) Die Robots von Google, Microsoft und Yahoo indes interpretieren die Einträge in der /robots.txt nach dem "erweitertem Protokoll" und interpretieren den * als Pattern für "ein, kein oder beliebig viele beliebige Zeichen". Also steht der Asterix dann für "Alles".

    Auch die Aussage, dass das robots-Protokoll nur eine Empfehlung ist, findet sich im Artikel.