Lewon: Wofür disallow sinnvoll?

Hallo,
gerade habe ich gelesen,
dass die Angabe von disallow in der .htaccess nur eine "Empfehlung" ist  und die Robots sich nicht daran halten.
Ist die Angabe daher noch sinnvoll?
Falls ja, Angabe auch nötig für cgi-bin, die Perl-Programme enthält?

  1. Ist die Angabe daher noch sinnvoll?

    Sicher - damit kannst du bei ordentlichen Suchmaschinen verhindern, dass Seiten die nicht unbedingt öffentlich sichtbarsein sollen, in den Index wandern.

    Falls ja, Angabe auch nötig für cgi-bin, die Perl-Programme enthält?

    Nötig ist sie nie, schaden tut es aber nicht.

    Was aber viel wichtiger ist: die Angabe unterbindet niemals das ausführen oder aufrufen von Ressourcen.

    Denn die "Perl-Programme" also irgendwas bewirken (oder gar Dinge löschen) solltest du das tunlichst verhindern.

    Ebenso kann eine robots.txt dafür sorgen, dass erst jemand auf deinen versteckten Inhalt aufmerksam wird. Das passiert immer wieder mal bei den Online-Portalen einschlägiger Zeitungen die da meinen, sie könnten unliebsame Artikel kurzfristig aus den Suchmaschinen verbannen (z.B. Richtigstellungen usw) - aber das geht idR. nach hinten los, weils Leute gibt die immer mal wieder diese Files anschauen um zu sehen, was die Zeitungen da verstecken wollen.

    1. Hallo,
      also

      • disallow ja
      • robots   nein
        Danke Dir,
        Lewon
        • disallow ja
        • robots   nein

        Nein

        disallow in den robots: ja.

        Ohne weiteren _wirksamen_ Zugriffsschutz: nein

        1. disallow in den robots: ja.

          Ohne weiteren _wirksamen_ Zugriffsschutz: nein

          Tach! Post!

          Wieso? Ist doch geil! Du musst das differenzierter sehen:

          Weich und ok.:
          Untersage Suchmaschinen das Abrufen und Indexieren der Pics von einem Webhost. Spart Abmahnungen.

          Weich und ok:
          Untersage Suchmaschinen das Abrufen und Indexieren des Impressums. Schafft eine gewisse Privatsphäre.

          Weich, nicht ganz o.k., besser möglich:
          Untersage Suchmaschinen das Abrufen und Indexieren von Kontaktformularen  - das aber besser mit:<meta name="robots" content="noindex" /> im HTML-Header.
          Spart (insbesondere als Meta-Tag) Zugriffe von Formular-Spammern, welche Suchmaschinen missbrauchen um Kontaktformulare zu finden.
          Lockt (in der robots.txt) unerwünschte Besucher, welche diese Ressiource auswerten.

          Hammerhart:

          Man sagt den seriösen Suchmaschinen:

          in der Robots.txt:
          Disallow:   /admin/*

          (Das Verzeichnis admin gibt es natürlich nicht...)

          ... und wer dennoch etwas unterhalb von /admin/ aufruft landet dank des Honigtopfes mit seiner IP in der htaccess (deny from ...) und sieht einen "netten" Hinweis. "<h1>Tach Hackerleinchen!</h1><p>Drück doch mal [F5] um an supergeheime Informationen zu gelangen!</p>".

          Wenn dann als 403er-error-document noch http://www.bka.de/ drin steht, dann ist der Effekt groß :)

          VOLLKOMMENER UNSINN:

          In der robots.txt Webseiten mit vertraulichen Inhalten oder eine existierende "login.php" aufzuführen. Das schafft erst Anreiz diese Ressourcen zu testen und dann hat man a) mehr unerwünschten Traffic und b) oft ein echtes Problem.

          Fred.

          1. Hammerhart:
            ....

            Aber ne hübsche Idee :-)

            VOLLKOMMENER UNSINN:
            ....

            Wer macht denn sowas? Auf so eine Idee würd ich erst gar nicht kommen. Außer man mags dann eben wieder für den Honigtopf.

            1. VOLLKOMMENER UNSINN:
              ....
              Wer macht denn sowas? Auf so eine Idee würd ich erst gar nicht kommen. Außer man mags dann eben wieder für den Honigtopf.

              Genug :)

          2. <meta name="robots" content="noindex" /> im HTML-Header.

            Das kann oder sollte auch für die weiter unten aufgeführte 'login.php' so gemacht werden.

            T4B
            ("Danke für die Blumen")

            Fred

  2. Wie schon in den vorigen Antworten zu ersehen ist, meinst du wahrscheinlich eine robots.txt Datei?
    Die .htaccess kriegt kein Client zu sehen.