Sascha: Robot öffnen Geheime Seiten

Heute ist was komisches passiert. Es kam der Crawler von archives.org vorbei. Er kam auch in ein Verzeichnis das er eigentlich nicht wissen kann, da es keinen Bezug von den einzelnen Seiten zu dieser Seite gibt. Die Seite hätte normalerweis nicht auf dem Server sein dürfen, weil man sie eigentlich löschen soll. Aber der Crawler hätte eigentlich nicht wissen können wo und wie die Seite heißt. Jetzt habe ich zwei Fragen:

Erstens: kann ich in den in die Robot.txt reinschreiben, das er keine name.php seiten ansehen darf....

und zweiten wie ich vorgehen kann, das ich rausfinde wie er auf diese Seite kam?

  1. Moin!

    Erstens: kann ich in den in die Robot.txt reinschreiben, das er keine name.php seiten ansehen darf....

    Hier entlang bitte: http://wiki.selfhtml.org/wiki/Grundlagen/Robots Du könntest es allerdings auch (zusätzlich) als Meta-Angabe in den Head der HTML-Datei schreiben (sofern name.php eine HTML-Seite ausgibt). Es ist allerdings so, dass die robots.txt eine nur Empfehlung an den Crawler darstellt.

    und zweiten wie ich vorgehen kann, das ich rausfinde wie er auf diese Seite kam?

    Wenn du den Link zu dieser Seite nicht (selbst) öffentlich verbreitet hast, würde ich einerseits die fragen, denen du den Link gegeben hast, und andererseits in den Server-Logdateien nach dieser Adresse und dem passenden Refferrer Ausschau (k.A., ob der Crawler von archive.org die sendet) halten: Wenn dieser Link irgendwo im öffentlichen Internet zu finden ist und archive.org ihn entdeckt hat, ist es möglich, dass dies auch ein „normaler“ Nutzer getan hat und der einen Refferrer gesendet hat...

    Julius

  2. Liebe Mitdenker, liebe Wissende, liebe Neugierige,

    ja!

    Heute ist was komisches passiert. Es kam der Crawler von archives.org vorbei. Er kam auch in ein Verzeichnis das er eigentlich nicht wissen kann, da es keinen Bezug von den einzelnen Seiten zu dieser Seite gibt. Die Seite hätte normalerweis nicht auf dem Server sein dürfen, weil man sie eigentlich löschen soll. Aber der Crawler hätte eigentlich nicht wissen können wo und wie die Seite heißt.

    Das ist nicht komisch, sondern nur merkwürdig. Und wenn wir uns das dann gemerkt haben, weil es dessen würdig war und deinen Text etwas genauer analysieren, dann stoßen wir auf die Stelle "weil man sie eigentlich löschen soll".

    Daraus lässt sich schließen, dass eine mehrfach verbreitete Software (? Open Source) installiert wurde.

    Nun wird der Robot-Programmierer diese Software auch kennen und daher wissen, wo auf dem System, gemessen ab dem ihm bekanntgegebenen Einstiegspunkt (? Document Root) die empfindliche Stelle zu suchen ist.

    Jetzt habe ich zwei Fragen:

    Erstens: kann ich in den in die Robot.txt reinschreiben, das er keine name.php seiten ansehen darf....

    Ja. Reinschreiben kannst Du da, was Du willst. Aber ob der Robot etwas damit anfangen kann und - viel wichtiger - damit anfangen will, ist dessen Sache. Es sind ja nur Empfehlungen, die er nach Gutdünken umsetzen kann, oder auch nicht.

    Außerdem wird ein Robot, der nach derlei Ressourcen sucht, sicherlich keine Empfehlungen zur Unterlassung einhalten, sondern sie, im Gegenteil dazu, erst recht verfolgen.

    und zweiten wie ich vorgehen kann, das ich rausfinde wie er auf diese Seite kam?

    siehe oben.

    Du kannst diese Ressource gegen HTTP/s-Zugriffe mit Basic-Auth, also z.B. mittels einer .htaccess-Datei schützen oder aber sie tatsächlich löschen.

    Wenn man mittels dieser Ressource schreibenden Zugriff auf den Server erlangen konnte, ist die Integrität des Systems bereits hochgradig in Frage zu stellen!

    Spirituelle Grüße
    Euer Robert

    --
    Möge der wahre Forumsgeist ewig leben!
    1. Tag.

      Es kam der Crawler von archives.org vorbei. Er kam auch in ein Verzeichnis das er eigentlich nicht wissen kann

      Und wenn wir ... deinen Text etwas genauer analysieren

      Daraus lässt sich schließen, dass eine mehrfach verbreitete Software (? Open Source) installiert wurde.

      Nun wird der Robot-Programmierer diese Software auch kennen und daher wissen, wo auf dem System, gemessen ab dem ihm bekanntgegebenen Einstiegspunkt (? Document Root) die empfindliche Stelle zu suchen ist.

      Das mit dem "genauer analysieren" ging bei dir wohl in die Hose, ansonsten wäre dir aufgefallen, dass gleich am Anfang archive.org genannt wurde, ein Dienst, der mit Robot-Programmieren, die gezielt nach empfindlichen Stellen suchen, nichts zu tun hat.

  3. Hallo Sascha,

    die robots.txt kann jeder lesen. Wenn du da reinschreibst, diese Datei ist geheim und soll nicht gelistet weden, ist das so, als ob du an eine Gehimtür einen Zettel hängst mit „Geheimtür “drauf.

    Wenn ein Bot eine Datei besucht hat, dann hat ihm jemand die Url verraten. Es muss also in den Weiten des Internts einen link auf die Datei geben oder gegeben haben.

    Gruß Jürgen

    1. Liebe Mitdenker, liebe Wissende, liebe Neugierige,

      ja!

      die robots.txt kann jeder lesen. Wenn du da reinschreibst, diese Datei ist geheim und soll nicht gelistet weden, ist das so, als ob du an eine Gehimtür einen Zettel hängst mit „Geheimtür “drauf.

      Ack

      Wenn ein Bot eine Datei besucht hat, dann hat ihm jemand die Url verraten. Es muss also in den Weiten des Internts einen link auf die Datei geben oder gegeben haben.

      Den muss es eben gerade nicht "in den Weiten des Internet" geben, sondern es reicht, wenn die Information in der Liste, die sich der Robert äh Robot zusammengestellt hat, um irgendwo einzubrechen, vorhanden ist. Woher der Programmierer des Robots die Information hat, ist dabei vollkommen unerheblich.

      Spirituelle Grüße
      Euer Robert

      --
      Möge der wahre Forumsgeist ewig leben!
      1. Hallo,

        Den muss es eben gerade nicht "in den Weiten des Internet" geben, sondern es reicht, wenn die Information in der Liste, die sich der Robert äh Robot zusammengestellt hat, um irgendwo einzubrechen, vorhanden ist. Woher der Programmierer des Robots die Information hat, ist dabei vollkommen unerheblich.

        Genau, das kann man in den logs gut beobachten, dass die üblichen Verdächtigen abgeklappert werden.

        Gruß
        Kalk

        1. Ich habe mir das Logfile angesehen. Erst wurde die Robot.txt gelesen, in der nichts drin steht. Dann wurde direkt die Datei aufgerufen. Diese steht nirgends. Sie ist von mir, ich habe sie auch keinem anderen mitgeteilt. Das einzige was ich ich errinern kann, ist, das ich sie aus versehen vieleicht mal inkl. Pfad bei Google, bzw. sogar bei archive.org eingegeben habe.

          Bitte nicht AAAhh, das einzige das ich mir erklären könnte wäre, das durch mein eingeben bei besagter Suchmaschine, diese dann eben diese abgerufen hat. Wäre das möglich.

          1. Hallo,

            sie aus versehen vieleicht mal inkl. Pfad bei Google, bzw. sogar bei archive.org eingegeben habe.

            Ich erinnere mich daran, dass Google mal eine Ansicht hatte, auf der die aktuell 10 letzten Suchanfragen gelistet wurden. Das konnte damals jeder ansehen, vermutlich braucht man heute dafür bestimmte Privilegien.

            Wäre das möglich.

            Ist das eine Frage.

            Gruß
            Kalk

          2. Tag.

            Dann wurde direkt die Datei aufgerufen. Diese steht nirgends. Sie ist von mir, ich habe sie auch keinem anderen mitgeteilt. Das einzige was ich ich errinern kann, ist, das ich sie aus versehen vieleicht mal inkl. Pfad bei Google, bzw. sogar bei archive.org eingegeben habe.

            Die Suche bei archive.org basiert auf URLs. Dass URLs, nach denen gesucht wird, für die es also Interesse zu geben scheint, in die Datenbank eingehen, ist sehr gut möglich.

            Für Google sehe ich da keinen großen Nutzen, Google wird mit Stichwörtern benutzt, nicht mit URLs, das Suchfeld als URL-Quelle dürfte dementsprechend nicht sonderlich ergiebig sein. Google hat andere Möglichkeiten in die Tiefen des Webs vorzudringen, zum Beispiel ist die Geschwätzigkeit von Googles Browsererweiterung erwiesen (oder war es zumindest). Es ist mir auch nicht ersichtlich, warum eine URL, die Google in seiner Datenbank hat, von archive.org besucht werden sollte, da gibt es keinen Zusammenhang.

            Immer möglich sind allerdings Unfälle, namentlich in Form von unbeabsichtigt oder unwissentlich aktivierten Verzeichnislisten, also die Seite, die der Webserver erzeugen kann, falls er keine index.xy findet.

            1. Hallo,

              Für Google sehe ich da keinen großen Nutzen, Google wird mit Stichwörtern benutzt, nicht mit URLs, das Suchfeld als URL-Quelle dürfte dementsprechend nicht sonderlich ergiebig sein.

              Da möchte ich dir aber mal sowas von widersprechen!
              Google ist bei Soundsovielen als Startseite eingerichtet, die also was machen, wenn sie eine wwwebadresse aufsuchen wollen? Genau, bei Google in das zentrale Eingabefeld eintippen.

              Ob Google diese Seite dann selbst aufsucht, kann ich dir natürlich nicht sagen.

              Gruß
              Kalk

          3. Hast du keine IP von der was aufgerufen wurde? Dann könntest du dir ansehen welcher Hostname das war. Google Rechner könnten als solche erkennbar sein.

            das einzige das ich mir erklären könnte wäre, das durch mein eingeben bei besagter Suchmaschine, diese dann eben diese abgerufen hat. Wäre das möglich.

            Ich halte das durchaus für möglich. Warum sollte eine Suchmaschine die Seiten indizieren will, sich nicht eine bisher unbekannte Seite ansehen die jemand dort eingibt?

    2. Hi,

      die robots.txt kann jeder lesen. Wenn du da reinschreibst, diese Datei ist geheim und soll nicht gelistet weden, ist das so, als ob du an eine Geheimtür einen Zettel hängst mit „Geheimtür “drauf.

      Ist das denn nicht üblich?

      Geheimer Nuklear-Bunker ...

      cu, Andreas a/k/a MudGuard

      1. Hallo Andreas,

        Geheimer Nuklear-Bunker ...

        :-)

        Gruß Jürgen