Jones: Rauskriegen, welche Dateien in einem Webverzeichnis liegen

Beitrag lesen

Hallo liebes Forum,

ich habe mal eine Verständnisfrage. Kann mir jemand erklären, wie das mit dem Zugriff auf Internetverzeichnisse funktioniert?

Grundsätzlich kann doch alles, was im Netz steht, auch gesehen, gelesen, gefunden und gedownloaded werden kann, ist eben für die Öffentlichkeit. Wer etwas ins Internet stellt, gibt den Inhalt sozusagen für die Öffentlichkeit frei. Das ist zumindest mein Verständnis.

Normalerweise gelange ich über eine Index-HTML auf die Startseite und kann dort den Links folgen. Aber wie kann ich Dateien in dem Webverzeichnis und Unterverzeichnissen finden, die nicht verlinkt sind?

Bei den meisten Seiten wird die Funktion, daß man sich den Inhalt des Verzeichnisses (Vermutlich geht das nur über FTP?) anzeigen lassen kann, abgeklempt sein. Also könnte man nur zufällig, durch Eingabe einer Zufalls-URL auf die Datei stoßen? Wie funktionieren die Spider und Bots der Suchmaschinen? Wie kriegen die raus, was in einem Verzeichnis liegt? Könnte man über einen Zufallsgenerator alle möglichen URLs antesten und die mit ERROR 404 rausfiltern? Ich kann mir nicht vorstellen, daß so vorgegangen wird.

Ich würde mir gerne den Inhalt eines Webverzeichnisses anzeigen lassen. Aber mit Tools wie HTTrack komme ich auch nicht weiter. Ich komme nicht über das Hauptverzeichnis hinaus in die Unterverzeichnisse. Ich kriege nicht mal die Dateien, die google schon längst gecached hat. Wie kann man an die robots.txt einer Seite runterladen? Ich denke mal das ist nichts illegales, weil ja im Netz steht. Wenn jemand nicht will, daß seine Dokumente gelesen werden, darf er sie eben nicht ins Internet stellen. Also müßte das doch legitim sein. Schließlich könnte ich ja genausogut über den Aufruf einer Zufallsurl nicht verlinkte Dateien entdecken.