michaa: robots.txt , wildcards und Reihenfolge

Ob ich hier mit "PROJEKTVERWALTUNG" den richtigen Bereich getroffen habe, ist mir nicht klar, aber wo sonst?

Zur Frage: Mir ist nicht klar, ob in der robots.txt die Reihenfolge eine Rolle spielt und ob wildcards so wie von mir gewünscht eingesetzt werden können. Neben der "index.html" gibt es im Stammverzeichnis mehrere Testdateien, die ich oft nicht sofort lösche.  Diese Dateien werden immer nach dem schema "test<nummer>.html" gebildet.

Ist die folgende robots.txt Datei also geeignet, den spidern mitzuteilen, dass diese Dateien nicht mitindexiert werden sollten?

User-agent: *
Disallow: /kram/
Disallow: /test*
Allow: /

  1. Ist die folgende robots.txt Datei also geeignet, den spidern mitzuteilen, dass diese Dateien nicht mitindexiert werden sollten?

    User-agent: *
    Disallow: /kram/
    Disallow: /test*
    Allow: /

    Damit verbietest du /kram/ (und darunter) und alles was mit /test* beginnt.

    Danach gibst du für sämtliche Crawler die etwas mit Allow anfangen können alles wieder frei.

    Diese Variante ist also imho ungeeignet.

    1. Ist die folgende robots.txt Datei also geeignet, den spidern mitzuteilen, dass diese Dateien nicht mitindexiert werden sollten?

      User-agent: *
      Disallow: /kram/
      Disallow: /test*
      Allow: /

      Damit verbietest du /kram/ (und darunter) und alles was mit /test* beginnt.

      Danach gibst du für sämtliche Crawler die etwas mit Allow anfangen können alles wieder frei.

      Diese Variante ist also imho ungeeignet.

      Aha, die Reihenfolge spielt also eine Rolle. Und Wildcards funktionieren wie erwartet. Aber zu "Allow" ist ja im Netz verschiedenes zu finden von "überflüssig" über "nicht unterstützt" bis "für Google robots nützlich".

      Wie wäre es besser:

      A)
      User-agent: *
      Allow: /
      Disallow: /kram/
      Disallow: /test*

      oder

      B)
      User-agent: *
      Disallow: /kram/
      Disallow: /test*

      Insgesamt scheint mir "Allow" doch von eher zweifelhaftem Wert zu sein.

      1. Ist die folgende robots.txt Datei also geeignet, den spidern mitzuteilen, dass diese Dateien nicht mitindexiert werden sollten?

        User-agent: *
        Disallow: /kram/
        Disallow: /test*
        Allow: /

        Damit verbietest du /kram/ (und darunter) und alles was mit /test* beginnt.

        Danach gibst du für sämtliche Crawler die etwas mit Allow anfangen können alles wieder frei.

        Diese Variante ist also imho ungeeignet.

        Aha, die Reihenfolge spielt also eine Rolle. Und Wildcards funktionieren wie erwartet. Aber zu "Allow" ist ja im Netz verschiedenes zu finden von "überflüssig" über "nicht unterstützt" bis "für Google robots nützlich".

        Kurz: es ist nicht Standardkonfom, einige Robots nutzen es aber trotzdem.

        Google (googlebot) und Yahoo (Slurp!) gehören dazu.

        Wie wäre es besser:

        A)
        User-agent: *
        Allow: /
        Disallow: /kram/
        Disallow: /test*

        oder

        B)
        User-agent: *
        Disallow: /kram/
        Disallow: /test*

        B) da das Allow hier augenscheinlich hier ohnehin keinen Zweck erfüllt.

        Insgesamt scheint mir "Allow" doch von eher zweifelhaftem Wert zu sein.

        Für bestimmte konstrukte ist es durchaus eine Arbeitserleichterung - aber doch eher für Unterverzeichnise als für das Stammverzeichnis.

      2. Aha, die Reihenfolge spielt also eine Rolle. Und Wildcards funktionieren wie erwartet. Aber zu "Allow" ist ja im Netz verschiedenes zu finden von "überflüssig" über "nicht unterstützt" bis "für Google robots nützlich".

        Verwende im Bereich
        User-agent: *
        ausschliesslich Standard-Syntax, ohne inoffizielle Extras

        Setze Allow und andere Erweiterungen nur für benannte Bots ein.

        mfg Beat

        --
        ><o(((°>           ><o(((°>
           <°)))o><                     ><o(((°>o
        Der Valigator leibt diese Fische
        1. Aha, die Reihenfolge spielt also eine Rolle. Und Wildcards funktionieren wie erwartet. Aber zu "Allow" ist ja im Netz verschiedenes zu finden von "überflüssig" über "nicht unterstützt" bis "für Google robots nützlich".

          Verwende im Bereich
          User-agent: *
          ausschliesslich Standard-Syntax, ohne inoffizielle Extras

          Setze Allow und andere Erweiterungen nur für benannte Bots ein.

          hm, diese Unterscheidung scheint sinnvoll, aber die Sache mit der Reihenfolge scheint mir noch nicht hinreichend geklärt, ganz abgesehen davon dass das Google tool "Allow" für alle User-agents hinzufügt. Kann man zwar löschen, aber es bleiben Fragen.

          Weiter unten befindet sich eine robots.txt, wie sie Googles Webmaster-tools auf Anfrage produzieren. Daraus ergibt sich die Frage an
          @ suit:

          Bist du sicher, das mit der Reihenfolge richtig verstanden zu haben. Das steht nämlich im Widerspruch zu Google:

          User-agent: *
          Disallow: /test*
          Disallow: /kram/
          Allow: /

          User-agent: Googlebot
          Disallow: /kram/
          Disallow: /test*
          Allow: /

          1. Weiter unten befindet sich eine robots.txt, wie sie Googles Webmaster-tools auf Anfrage produzieren.

            Dann teste dieses File auch mit den Webmaster Tools - lass es dir nicht nur bauen.

            Bist du sicher, das mit der Reihenfolge richtig verstanden zu haben.

            Ja habe ich. Robots.txt-Files werden sequentiell von oben nach unten abgearbeitet - spätere Regeln überschreiben/ergänzen vorhergehende.

            Das steht nämlich im Widerspruch zu Google:

            Das kann durchaus sein, dass da selbst Google (logischen) Unsinn dreht - wäre nicht das erste mal ;)

            Nachdem Allow nicht zum Standard gehört, gibt es keine offizielle spezfikation wie es zu sein hat.

            Aber wie schon gesagt: "Allow: /" ist Unsinn - in jeglicher Hinsicht.

            1. Aber wie schon gesagt: "Allow: /" ist Unsinn - in jeglicher Hinsicht.

              So ja.
              Sinnvoll wäre:
              Disallow: /dir
              Allow:    /dir/exception

              mfg Beat

              --
              ><o(((°>           ><o(((°>
                 <°)))o><                     ><o(((°>o
              Der Valigator leibt diese Fische
              1. Aber wie schon gesagt: "Allow: /" ist Unsinn - in jeglicher Hinsicht.

                So ja.
                Sinnvoll wäre:
                Disallow: /dir
                Allow:    /dir/exception

                mfg Beat

                ok, danke, ich hab's glaube ich, jetzt verstanden.

                Danke auch an suit.