Steve: robots.txt - Unterverzeichnisse sperren

Guten Abend,

ist es möglich in der robots.txt anzugeben, dass sämtliche Unterverzeichnisse eines Ordners nicht indiziert werden dürfen oder muss man die Unterverzeichnisse einzeln mittels Disallow auflisten?

Nur zu Info: Ich weiss, dass die meisten Spider sich nicht an die Robots.Txt Angaben halten. Ein Versuch ist es aber wert.

Bye,
Steve

  1. ist es möglich in der robots.txt anzugeben, dass sämtliche Unterverzeichnisse eines Ordners nicht indiziert werden dürfen oder muss man die Unterverzeichnisse einzeln mittels Disallow auflisten?

    Wenn du

    Disallow: /f

    angegeben hast, dürfen

    /foo.html
      /foobar/
      /foobar/baz/
      ...

    nicht indexiert werden, wo ist demnach dein Problem?

    1. Hi Björn ,

      also wenn ich folgendes definiere:

      Disallow: /projekt

      Sind dann auch die Unterverzeichnisse

      projekt/nr01
      projekt/nr01/images
      projekt/nr01/js

      projekt/nr02
      projekt/nr02/images
      projekt/nr02/js

      automatisch gesperrt?

      Habe ich das so richtig verstanden?

      Bye,
      Steve

      1. Hallo Steve,

        Habe ich das so richtig verstanden?

        ja: http://www.robotstxt.org/wc/norobots.html#format

        Viele Grüße,
        Stefan

        1. Hallo Stefan,

          sicherheitshalber frage ich noch einmal nach:

          Ich habe folgendes definiert:

          Disallow: /home/img/

          in "home" sind HTML Dateien, darunter ist das Unterverzeichnis "img", in dem Bilder liegen. Mittels der Anweisung versuche ich die Bilder zu "schützen."

          Was ich heute gelernt habe - alle URLS oder Dateinamen die einen Teil des "Disallow-Strings" enthalten werden werden nicht indiziert - dann bedeutet ja dies, dass alle meine Files in "home" ausgeschlossen sind oder nicht?

          Das geht wohl nicht oder?
          Disallow: /img/

          Ich muss dann wohl ein Verzeichniss für Bilder anlegen!

          Bye,
          Steve01

          Hallo Steve,

          Habe ich das so richtig verstanden?

          ja: http://www.robotstxt.org/wc/norobots.html#format

          Viele Grüße,
          Stefan

          1. Hallo Steve,

            sicherheitshalber frage ich noch einmal nach:

            Du könntest natürlich auch eine der zahlreichen vorhandenen Er-
            klärungen zur robots.txt lesen ...

            Was ich heute gelernt habe - alle URLS oder Dateinamen die einen Teil des "Disallow-Strings" enthalten werden werden nicht indiziert - dann bedeutet ja dies, dass alle meine Files in "home" ausgeschlossen sind oder nicht?

            Nein, es sind nur die Verzeichnisse/Dateien blockiert, die auch so
            anfangen, in Deinem Fall also alles, was sich innnerhalb von
            /home/img/ befindet, /home/datei.html natürlich nicht.
            /home/img.html auch nicht, wäre allerdings betroffen, wenn Du
            "Disallow /home/img" schreibst.

            Das geht wohl nicht oder?
            Disallow: /img/

            Doch, betrifft allerdings nur das Verzeichnis /img/ und dessen
            Unterverzeichnisse, /home/img/ usw. wären davon nicht betroffen.

            Ich muss dann wohl ein Verzeichniss für Bilder anlegen!

            Wenn es Dir nur darum geht, die Indizierung der Bilder zu ver-
            hindern, was ja im Wesentlichen bei Google zum Tragen kommen
            soll, dann schaue Dir die robots.txt von Favicon.de an, diese
            Schreibweise wird von Google erkannt:
            http://www.favicon.de/robots.txt

            Speziell für Google hilft auch die Lektüre der dazugehörigen Web-
            site weiter, z.Bsp. http://www.google.com/remove.html#images ff.

            Viele Grüße,
            Stefan

            PS: Andere Suchmaschinen, wo eine Indizierung sinnvoll oder nicht
                erwünscht ist, fallen mir spontan überhaupt nicht mehr ein,
                zumindest keine von Relevanz ;-)

            1. Hallo Stefan,

              erstmal vieln Dank für die ausführliche Hilfe.

              Entscheidend für mich ist das bei:

              Disallow: /home/img/

              die Files indexXXX.htm nicht blockiert sind, aber alles in /home/img/

              Dem ist ka nun so :-)

              Das man Google anweisen kann, Images nicht zu indizieren wusste ich. Geht auch DOC, XLS, PDF.

              Aber ich will halt alle Images in ein Verzeichnis packen, damit andere Spider die Images nicht aufnehmen.

              Wünsche dir noch einen schönen Tag,

              Bye,
              Steve01