Zerko: robots.txt - Ist ein Allow zwingend notwendig?

Mahlzeit ...

Ich habe eine kurze Diskussion zum Thema robots.txt geführt.

Frage diesbezüglich war, ob man bei Angaben von z.B. 20 Pfaden und Dateien in Form von "Disallow: /Bla/Bla" ... noch zusätzlich ein "Allow: /" am Anfang oder Ende der robots.txt notwendig ist?

Eure Meinung würde mich interessieren ;)

Gruß,
Zerko

  1. Frage diesbezüglich war, ob man bei Angaben von z.B. 20 Pfaden und Dateien in Form von "Disallow: /Bla/Bla" ... noch zusätzlich ein "Allow: /" am Anfang oder Ende der robots.txt notwendig ist?

    Ansicht nicht - auch User-agent: * oder vergleichbares ist nicht erforderlich.

    Nachdem es aber sicher viele Crawler gibt die es zwar gut meinen, den Standard aber nicht ordentlich beherrschen kann es nicht schaden.

    1. Doch, es kann schaden! Einem Spider "ungültige" oder unbekannte Argumente vorzusetzen führt eben nicht zwangsläufig zu dem gewünschten Ergebnis. Je nach Programmierung kann Unbekanntes ignoriert oder Fehlendes ergänzt werden, muss es aber nicht. Es kann ebensogut mit einer Fehlermeldung kommentiert und als ungültig verworfen werden.

      Die Angaben der robots.txt werden gewöhnlich blockweise interpretiert. Dabei beginnt der Block mit der Angabe des User-Agents. Dann folgen die nicht auszulesenden Pfade und Dateien.

      Da hier nur die nicht auszulesenden Pfade und Dateien angegeben werden, ist die Angabe von erlaubten Pfaden völlig überflüssig.

      1. Doch, es kann schaden! Einem Spider "ungültige" oder unbekannte Argumente vorzusetzen führt eben nicht zwangsläufig zu dem gewünschten Ergebnis.

        Das stimmt, ja.

        Je nach Programmierung kann Unbekanntes ignoriert oder Fehlendes ergänzt werden, muss es aber nicht. Es kann ebensogut mit einer Fehlermeldung kommentiert und als ungültig verworfen werden.

        Ja - das verhalten beim Robots Exclusion Standard ist hier nicht näher definiert.

        Da hier nur die nicht auszulesenden Pfade und Dateien angegeben werden, ist die Angabe von erlaubten Pfaden völlig überflüssig.

        Jein, es gibt durchaus Konstrukte, bei denen Allow Sinn hat.

        Prinzipiell gebe ich dir recht, in diesem Fall ist es aber eine Ausnahme.

        Nachdem sowohl Google alsauch Yahoo! etwas mit Allow anfangen können, ist es - auch wenn es nicht zum Standard gehört - vernachlässigbar. Zusammen haben beide einen Marktanteil von nahezu 100% - hier würde ich also eher auf den "Rest" pfeifen als auf Google zu verzichten.

        Dasselbe gilbt für "Sitemap" - hier können Google, Yahoo! und Bing etwas anfangen - das ist schon de facto 100% des Suchmaschinenmarktes in diesen Breiten.

        Und jetzt komm mir nicht mit "aber T-Online hat auch 2,5 %" - die verwenden Google :p

  2. Ich habe eine kurze Diskussion zum Thema robots.txt geführt.

    Frage diesbezüglich war, ob man bei Angaben von z.B. 20 Pfaden und Dateien in Form von "Disallow: /Bla/Bla" ... noch zusätzlich ein "Allow: /" am Anfang oder Ende der robots.txt notwendig ist?

    Allow gehört nicht zum offiziellen Standard.

    Der offizielle Standard aber ist gemessen an dem, wie einzelne robots die Interpretation erweitern, aber reichlich irrelevant.

    Rechne einfach nicht damit, dass
      Disallow: /x
      Allow: /x/y
    dazu führen wird, dass die zweite Ressource in Suchmaschinen aufgeführt wird. Indexiert wird sie auf jeden Fall irgendwo irgendwann.

    mfg Beat

    --
    ><o(((°>           ><o(((°>
       <°)))o><                     ><o(((°>o
    Der Valigator leibt diese Fische