Thomas N : robots.txt, in der Praxis

robots.txt

Das Thema ist neu für mich.

1. Gibt es in der Praxis Fälle, wo mit "Allow" ein robot eher das Webangebot
   durchkämt?
2. Ist es ein Unterschied, ob ich keine robots.txt habe, bzw. keine explizite "Einladung" mit "Allow"
   gebe?

Das sind zwei Fragen! ;-)

Mal davon abgesehen, dass sich die robots ja nicht unbedingt an "robots.txt" halten müssen.
Und das es viel zu dem Thema zu sagen gibt.

Mahlzeit
Thomas N

    1. Gibt es in der Praxis Fälle, wo mit "Allow" ein robot eher das Webangebot
         durchkämt?

    Nein.

    1. Ist es ein Unterschied, ob ich keine robots.txt habe, bzw. keine explizite "Einladung" mit "Allow"
         gebe?

    Nein.

    Einschränkung bei beiden Neins: Deine Seiten sind so grauenhaft geschrieben, daß man mit einfachen HTML-Mitteln nicht von Seite zu Seite kommt. Dann _kann_ es sein, daß das Allow zum Indizieren führt.
    Aber in dem Falle sollte man lieber die Designfehler in seinen Seiten korrigieren, weil davon auszugehen ist, daß auch sonst keiner diese Seiten zu sehen bekommt (oder schaust Du erst in der robots.txt nach, wo man überall hin kann?).

    Allow ist lediglich dafür gedacht, Unterverzeichnisse, die mit einem allgemeineren Disallow eigentlich gesperrt werden würden, explizit zugängig zu machen. Beispiel:

    Allow /kinos/ufa
    Disallow /kinos

    Ohne "Allow /kinos/ufa" würde /kinos/ufa nicht zugängig sein, weil es mit "Disallow /kinos" gesperrt wird.

    Suchmaschinen gehen übrigens von oben nach unten durch robots.txt, das erste passende Muster gilt. Würde man die beiden Anweisungen oben umdrehen, wäre das Allow wirkungslos, weil das Disallow eher auf die Adresse /kinos/ufa zutrifft.

    Mehr Infos findest Du unter http://www.robotstxt.org/wc/robots.html.

    Gruß,
      soenk.e

    1. Noch'n Nachtrag, bevor sich da jemand was zusammenreimt:

      Einschränkung bei beiden Neins: Deine Seiten sind so grauenhaft geschrieben, daß man mit einfachen HTML-Mitteln nicht von Seite zu Seite kommt. Dann _kann_ es sein, daß das Allow zum Indizieren führt.

      Mit "kann" meine ich, daß es auf die Art und Weise ankommt, wie die Suchmaschine einen Server abgrast und dabei die robots.txt-Regeln einbezieht.

      Ich gehe mal davon aus, daß die weitaus häufigste Methode sein dürfte, sich von Seite zu Seite zu hangeln und bei jeder neuen Adresse zu prüfen, ob auf diese eine Regel aus der robots.txt zutrifft.
      Bei dieser Methode ist es ausgeschlossen, daß ein Allow einer Einladung gleichkommt, weil robots.txt nicht nach Adressen durchsucht, sondern nur zur Prüfung von bereits bekannten Adressen herangezogen wird.

      Der umgekehrte Fall, erst aus der robots.txt Adressen zu fischen, um sie dann zu besuchen (wo Allow also einer Einladung entsprechen würde), dürfte nur als Zusatz vorkommen.

      Davon abgesehen gilt aber immer:

      Aber in dem Falle sollte man lieber die Designfehler in seinen Seiten korrigieren, weil davon auszugehen ist, daß auch sonst keiner diese Seiten zu sehen bekommt (oder schaust Du erst in der robots.txt nach, wo man überall hin kann?).

      Gruß,
        soenk.e

      1. Hui!

        Vielen Dank!
        Jetzt hab ich keine Ausreden mehr, mich der Praxis zuzuwenden!
        ;-)
        Thomas N

  1. Hi,

    1. Ist es ein Unterschied, ob ich keine robots.txt habe,
         bzw. keine explizite "Einladung" mit "Allow" gebe?

    wenn Du keinen solche Datei hast, aber ein Robot darauf zugreift, dann löst das einen Error 404 aus. Dieser ergibt dann einen Eintrag im Fehlerprotokoll des Webservers.

    Und in einem Fehlerprotokoll möchte ich nur Fehler drin haben ... mir diese zu zeigen ist nämlich der Sinn eines Fehlerprotokolls.
    Oder anders gesagt: Eine fehlende robots.txt ist in meinen Augen ein Fehler, genau wie ein broken link.

    Viele Grüße
          Michael