x2: robotx.txt-Prob!

Hallo, wenn ich in einer Robots.txt-Angabe kein Verzeichnis für Allow sondern nur die Disallow-verzeichnisse deffiniert habe, werden dann die anderen Webseite/Ordner vom System ausgelesen oder nicht?

  1. Hallo, wenn ich in einer Robots.txt-Angabe kein Verzeichnis für Allow sondern nur die Disallow-verzeichnisse deffiniert habe, werden dann die anderen Webseite/Ordner vom System ausgelesen oder nicht?

    Natürlich werden nicht definierte Verzeichnisse indiziert.

    Grüße

    Robert

    1. Hallo, wenn ich in einer Robots.txt-Angabe kein Verzeichnis für Allow sondern nur die Disallow-verzeichnisse deffiniert habe, werden dann die anderen Webseite/Ordner vom System ausgelesen oder nicht?

      Natürlich werden nicht definierte Verzeichnisse indiziert.

      Wobei vielleicht der Vollständigkeit halber zum Thema Allow noch anzumerken wäre, daß die Zeilen in der robots.txt nacheinander abgearbeitet werden und die _erste_ passende Zeile bestimmt, was mit einer URL passiert. Das Allow in einer robots.txt à la

      Disallow /
        Allow /blabla

      hat dementsprechend keinerlei Wirkung, weil sämtliche URLs schon auf / passen und dementsprechend gesperrt werden.

      Gruß,
        soenk.e

      1. Hallo Sönke,

        Disallow /
          Allow /blabla

        was allerdings auch wieder egal ist, da es afaik keinen Robot gibt,
        der die Allow-Directive unterstützt.

        Viele Grüße,
        Stefan

        PS: Was Du meinst, ist mir durchaus klar, in der .htaccess geht es
            ähnlich vonstatten.

  2. Hallo x2!

    Nicht vom System, sondern von den diversen Suchrobotern. Aber in diesem Fall JA, soferne irgendein Link oder sonstige Verknüpfung (Image) dorthin verweist.

    mfg

    norbert =:-)

  3. Hi,

    Hallo, wenn ich in einer Robots.txt-Angabe kein Verzeichnis für Allow sondern nur die Disallow-verzeichnisse deffiniert habe, werden dann die anderen Webseite/Ordner vom System ausgelesen oder nicht?

    Du hast ja schon ein paar Antworten gekriegt.
    Die Robots denken: "Was nicht verboten ist, ist erlaubt".
    Weitere Infos zur robots.txt:
    http://www.robotstxt.org/wc/exclusion-admin.html

    Ich habe uebrigens kuerzlich bei Google festgestellt, dass er sich in einem Fall nicht an die robots.txt haelt. Er verfolgte Links in ein "verbotenes" Verzeichnis und stellte dort fest, dass in den Dateien folgendes stand:
    <meta name='robots' content='index, follow'>
    Und prompt indexierte er die Seiten.
    (Mittlerweile habe ich es geaendert auf
    <meta name='robots' content='noindex, follow'>
    und hoffe, dass Google die Seiten in den naechsten Wochen wieder rauswirft. Sonst greife ich dann doch zu einem .htaccess-Passwortschutz.)

    Konkret geht es um:
    http://www.morgain.ch/de2/band.html
    Das Unterverzeichnis /de2/ habe ich nur zu Testzwecken angelegt. Weil ich ein CSS-Problem hier im SelfForum zur Diskussion stellte, habe ich das Verzeichnis natuerlich nicht passwortgeschuetzt. Googlebot ist wohl einem Link aus dem SelfForum dorthin gefolgt.

    Die robots.txt war schon immer:
    http://www.morgain.ch/robots.txt

    mfg
    Thomas