Tommy: Webseite ohne Passwort "schützen"

Hallo, dies ist eine Folgefrage zu folgender FAQ:

http://de.selfhtml.org/navigation/faq.htm#passwortschutz

Im letzten Absatz heißt es:

"(...) stellen Sie Seiten unverlinkt ins Netz und teilen Sie nur solchen Personen die Adresse mit, die diese Seiten sehen können sollen. (...) Ein solcher Schutz ist zwar nicht hundertprozentig, aber im Grunde sicherer als alle Versuche, mit einem Passwortformular schon anzudeuten, dass es da noch etwas 'Geheimes' gibt."

Das alles leuchtet mir ein, aber stutzig gemacht hat mich folgender Hinweis:

"Stellen Sie solche Dateien am besten in ein eigenes Verzeichnis ein und legen Sie dann zentral in einer robots.txt fest, dass Suchmaschinen sich auf keinen Fall an Inhalten dieses Verzeichnisses vergreifen."

Meine Frage ist: Wenn ich Seiten *unverlinkt* ins Web stelle, wie könnte irgendein Robot auf die Adresse kommen? Robots folgen doch nur Links, oder habe ich da etwas falsch verstanden?

Hinweis:
Ich habe *nicht* vor, irgendwelche geheimen oder privaten Daten ins Web zu stellen und so zu "schützen" - ich frage nur aus purem Interesse.

Danke für eure Zeit
Tommy

  1. Hallo Tommy,

    Meine Frage ist: Wenn ich Seiten *unverlinkt* ins Web stelle, wie könnte irgendein Robot auf die Adresse kommen? Robots folgen doch nur Links, oder habe ich da etwas falsch verstanden?

    das war bis gerade eben auch meine Überzeugung.
    Jetzt hast du mich nachdenklich gemacht.  ;-)

    Aber ich denke mal, wenn die Inhalte eines Verzeichnisses _wirklich_ nirgends verlinkt sind, kommt man nur durch systematisches Probieren dran (was letztendlich auf Brute Force hinausläuft). Ich glaube nicht, dass die Suchmaschinen daran ein Interesse haben, geschweige denn, die Ressourcen dafür.

    Schönen Abend noch,

    Martin

    1. Hi,

      Aber ich denke mal, wenn die Inhalte eines Verzeichnisses _wirklich_ nirgends verlinkt sind, kommt man nur durch systematisches Probieren dran (was letztendlich auf Brute Force hinausläuft).

      oder über Referer[1] aus irgend welchen Logfiles. Wer sagt eigentlich, dass die URL nicht von jemand anders verlinkt wird? Nein, das Konzept der "geheimen" URLs funktioniert nicht.

      Cheatah

      [1] Und manche Browser versenden URLs als Referer, die absolut nichts mit einem Referer gemein haben.

      --
      X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
      X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
      X-Will-Answer-Email: No
      X-Please-Search-Archive-First: Absolutely Yes
      1. Hi Cheatah,

        Aber ich denke mal, wenn die Inhalte eines Verzeichnisses _wirklich_ nirgends verlinkt sind, kommt man nur durch systematisches Probieren dran (was letztendlich auf Brute Force hinausläuft).
        oder über Referer[1] aus irgend welchen Logfiles.

        Das ist allerdings wahr.  *grübel*
        Einschließlich der Fußnote...

        Wer sagt eigentlich, dass die URL nicht von jemand anders verlinkt wird?

        Das hatte ich bedacht und durch meine hypothetische Formulierung "_wirklich_ nirgends verlinkt" ausgeschlossen.

        Nein, das Konzept der "geheimen" URLs funktioniert nicht.

        Das ist schon klar: Sobald sie irgendwann abgerufen werden, _können_ sie auch entdeckt werden. Schlimmstenfalls sogar durch einen der Server, die den Request weiterreichen.

        So long,

        Martin

      2. (...) wenn die Inhalte eines Verzeichnisses _wirklich_ nirgends verlinkt sind, kommt man nur durch systematisches Probieren dran (was letztendlich auf Brute Force hinausläuft).

        oder über Referer[1] aus irgend welchen Logfiles. Wer sagt eigentlich, dass die URL nicht von jemand anders verlinkt wird? (...)

        Was genau ist ein Referer? Könntest du das Szenario, das dir vorschwebt, kurz umreißen?

        Danke
        Tommy

        1. Hi,

          Was genau ist ein Referer?

          in einer idealen Welt die URL jener Ressource, von der aus die angeforderte Ressource referenziert wurde. In der Praxis: Ein HTTP-Header, der, falls vorhanden, irgendwas enthält, manchmal sogar die genannte URL.

          Könntest du das Szenario, das dir vorschwebt, kurz umreißen?

          Durch Links, böswillige Absicht oder technische Mängel der vom User eingesetzten Software wird die URL der "geheimen" Ressource im Referer-Header übermittelt und landet somit in den Logfiles oder Datenbanken irgend welcher fremden Systeme.

          Cheatah

          --
          X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
          X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
          X-Will-Answer-Email: No
          X-Please-Search-Archive-First: Absolutely Yes
          1. Durch Links, böswillige Absicht oder technische Mängel der vom User eingesetzten Software wird die URL der "geheimen" Ressource im Referer-Header übermittelt und landet somit in den Logfiles oder Datenbanken irgend welcher fremden Systeme.

            Ah! Jetzt verstehe ich!
            Danke für die Erklärung, jetzt ist mir klar, was du meinst.

            Tommy

        2. Hallo Tommy.

          Was genau ist ein Referer? Könntest du das Szenario, das dir vorschwebt, kurz umreißen?

          Mal ein Beispiel:
          Du gehst auf Google und gibst selfhtml ein.
          Du klickst auf den ersten Link und kommst auf SELFHTML, dabei übergibt dein Browser als Referer die Seite von der du kommst, in diesem Fall http://www.google.de/search (ohne ? und Rest).
          SELFHTML hält glücklicher Weise Statistiken darüber, die man hier nachgucken kann:
          http://stats.selfhtml.org/
          Und im Monat August sind immerhin schon 36589 User über Google an SelfHTML gekommen.
          Hier alle Referer vom August (von de.selfhtml.org): http://stats.selfhtml.org/webalizer/de.selfhtml.org/ref_200508.html

          Man liest sich, H2O

          --
          #*~!:     Download Opera
          Selfcode: [ie:% fl:( br:< va:) ls:[ fo:| rl:( n4:( ss:) de:> js:| ch:? sh:( mo:| zu:}](http://www.peter.in-berlin.de/projekte/selfcode/?code=ie%3A%25%20fl%3A(%20br%3A%3C%20va%3A)%20ls%3A%5B%20fo%3A%7C%20rl%3A(%20n4%3A(%20ss%3A)%20de%3A%3E%20js%3A%7C%20ch%3A%3F%20sh%3A(%20mo%3A%7C%20zu%3A%7D)
                                    Decoder    -    Infos
          1. Hi,

            Du klickst auf den ersten Link und kommst auf SELFHTML, dabei übergibt dein Browser als Referer die Seite von der du kommst, in diesem Fall http://www.google.de/search (ohne ? und Rest).

            in der Standardeinstellung werden die meisten üblichen Browser die URL als Referer übermitteln, nicht nur einen Teil davon.

            Cheatah

            --
            X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
            X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes
            1. Hallo Cheatah.

              Du klickst auf den ersten Link und kommst auf SELFHTML, dabei übergibt dein Browser als Referer die Seite von der du kommst, in diesem Fall http://www.google.de/search (ohne ? und Rest).

              in der Standardeinstellung werden die meisten üblichen Browser die URL als Referer übermitteln, nicht nur einen Teil davon.

              Hast natürlich Recht, hatte mich schlecht ausgedrückt...
              Mit "in diesem Fall" wollte ich das Beispiel auf die Statistiken von SELFHTML beziehen...

              Schönen Abend noch,
              H2O

              --
              #*~!:     Download Opera
              Selfcode: [ie:% fl:( br:< va:) ls:[ fo:| rl:( n4:( ss:) de:> js:| ch:? sh:( mo:| zu:}](http://www.peter.in-berlin.de/projekte/selfcode/?code=ie%3A%25%20fl%3A(%20br%3A%3C%20va%3A)%20ls%3A%5B%20fo%3A%7C%20rl%3A(%20n4%3A(%20ss%3A)%20de%3A%3E%20js%3A%7C%20ch%3A%3F%20sh%3A(%20mo%3A%7C%20zu%3A%7D)
                                        Decoder    -    Infos
              1. Hi,

                Mit "in diesem Fall" wollte ich das Beispiel auf die Statistiken von SELFHTML beziehen...

                Am Fehlen der Query-Strings in der Statistik dürfte das Statistik-Tool schuld sein.

                cu,
                Andreas

                --
                Warum nennt sich Andreas hier MudGuard?
                Schreinerei Waechter
                Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
                1. Hallo Andreas,

                  Mit "in diesem Fall" wollte ich das Beispiel auf die Statistiken von SELFHTML beziehen...

                  Am Fehlen der Query-Strings in der Statistik dürfte das Statistik-Tool schuld sein.

                  Ja, mit Absicht. Die Statistik ist ja jetzt schon ausführlich genug IMHO.

                  Viele Grüße,
                  Christian

          2. Hallo

            SELFHTML hält glücklicher Weise Statistiken darüber, die man hier nachgucken kann:
            http://stats.selfhtml.org/
            Und im Monat August sind immerhin schon 36589 User über Google an SelfHTML gekommen.

            Ich vermute, ein paar Leutchen mehr, da http://stats.selfhtml.org/webalizer/de.selfhtml.org/usage_200508.html#DAYSTATS darauf schließen läßt, dass die Logs von ca. 100 Stunden fehlen.

            Ich _weiß_, dass ich zu der Zeit, in der laut Statistik keine Zugriffe erfolgten, erfolgreich auf SELFHTML zugegriffen habe :-)

            Freundliche Grüße

            Vinzenz

            Wie war das noch: Trau keiner Statistik, die Du nicht selbst gefälscht hast. *bg*

  2. Moin!

    Meine Frage ist: Wenn ich Seiten *unverlinkt* ins Web stelle, wie könnte irgendein Robot auf die Adresse kommen? Robots folgen doch nur Links, oder habe ich da etwas falsch verstanden?

    Das dient wohl dazu die Verdunkelung etwas aufrecht zu erhalten, falls irgendend ein Idiot, der die Seite sehen darf und die Adresse also hat, sie auf seiner Webseite oder gar in einem gut besuchten Forum verlinkt versehentlich oder vorsätzlich verlinkt oder sie bei Google freundlicherweise zur Indexierung vorschlägt ("weil sie ja dort nicht gefunden wurde").

    Damit sind wir schon beim Hauptrisiko dieser Methode: Die Welt ist voller Idioten. Also zusätzlich Passwortschutz, alles andere ist barer Unsinn.

    MFFG (Mit freundlich- friedfertigem Grinsen)

    fastix®

    --
    Als Freiberufler bin ich immer auf der Suche nach Aufträgen: Schulungen, Development. Auch  für seriöse Agenturen.
  3. Moin,

    "Stellen Sie solche Dateien am besten in ein eigenes Verzeichnis ein und legen Sie dann zentral in einer robots.txt fest, dass Suchmaschinen sich auf keinen Fall an Inhalten dieses Verzeichnisses vergreifen."

    Ich halte diesen Tipp für nicht besonders sinnvoll. Dadurch, dass man das "geheime" Verzeichnis in der robos.txt nennt, rückt man die zu schützende URL überhaupt erst in das Licht der Öffentlichkeit. Und auch bei den Suchmaschinen gilt bei mir: Schlafende Hunde soll man nicht wecken.

    Kein Robot ist (gesetzlich) verpflichtet, sich an die robots.txt zu halten.

    Grüße aus Hamburg
    Michel

    --
    Ein Problem ist halb gelöst, wenn es klar formuliert ist. (John Dewey)
  4. hallo Tommy,

    Meine Frage ist: Wenn ich Seiten *unverlinkt* ins Web stelle, wie könnte irgendein Robot auf die Adresse kommen?

    Einfaches Gegenbeispiel: meine Adresse ist diversen "robots" teilweise seit Jahren gut bekannt. Sie kommen also immer mal vorbei und schauen nach, was es vielleicht Neues gibt. Sollte ich auf die Idee kommen, irgendein neues Verzeichnis zu erstellen (völlig unabhängig davon, ob und welche robots.txt dazwischenfunken möchte) nehmen sie das mit einem Gruß zur Kenntnis und "grabben" trotzdem weiter. Ob es auch noch "links" auf solche Verzeichnisse und/oder darin liegende Seiten gibt, ist völlig wurscht.

    wirklich _verbergen_ kannst du Seiten nur dadurch, daß du sie gar nicht erst online stellst. Andrerseits: was soll ein online gestelltes Dokument, wenn es nicht wenigstens _einem_ Rezipienten zur Verfügung gestellt werden soll?

    Grüße aus Berlin

    Christoph S.

    1. Moin,

      Einfaches Gegenbeispiel: meine Adresse ist diversen "robots" teilweise seit Jahren gut bekannt. [...] irgendein neues Verzeichnis zu erstellen, nehmen sie das mit einem Gruß zur Kenntnis ...

      ja, und _wie_ nehmen die das überhaupt zur Kenntnis? Mit HTTP kann man ja schließlich nicht einfach so den Verzeichnisinhalt abfragen, wie im lokalen Filesystem - außer vielleicht, ein freundlicher Indianer ist angewiesen, in diesem Verzeichnis ein AutoIndexing zu machen. Andernfalls bräuchtest du aber schon z.B. FTP, um so etwas zur Kenntnis zu nehmen.

      wirklich _verbergen_ kannst du Seiten nur dadurch, daß du sie gar nicht erst online stellst.

      Da sind wir uns einig.

      So long,

      Martin