Moin!
momentan werden (z. B. im "Internet Magazin") allerlei Programme angepriesen, mit denen sich ganze Websites vom Server saugen lassen, incl. versteckt geladener .
Diese Programme sind nicht neu. Wenn sie nun wieder einmal angepriesen werden, ist das lediglich ein Zeichen dafür, dass den Redaktionen gerade nichts anderes einfällt. Die Zahl der Benutzer dürfte sich durch solche Aktionen kaum signifikant erhöhen.
Nun ist mir klar, daß ein Website dazu dient, gelesesen und ggf. gespeichert zu werden. Sollten Programme dieser Art aber weit Verbreitung finden, so wird manche beliebte (Private Hobby-)Seite bald offline gehen, denn das Limit an Traffic dürfte rasch erreicht sein. Daran hat wohl niemand gedacht, daß massiv ganze Sites gesogen werden. Auch nicht, daß nicht direkt verlinkte Seiten damit gezogen werden können.
Mal ganz grundsätzlich:
Erstens: Alle Ressourcen, deren URL dem Client (egal, ob es ein Browser oder ein Webstaubsauger ist) bekannt sind, lassen sich runterladen, sofern nicht gewisse Zugangssperren dies verhindern (Stichwort .htaccess-Login).
Zweitens: Sofern der Client nicht durch irgendwelche Hinweise Kenntnis von ansonsten versteckten Dateien erhält (beispielsweise durch Directory-Listing) oder alle Zeichenkombinationen von Dateinamen durchprobiert, solange kann er unverlinkte Ressourcen nicht auffinden.
Hierzu folgende Fragen:
- was meinen Sie / meint Ihr insgesamt zu solchen Programmen?
Es gibt sie, und sie verhalten sich gegenüber dem Server wie ein ganz gewöhnlicher HTTP-Client. Ihre Verwendung ist nicht verwerflich.
- ist das eigentlich rechtlich in Ordnung? Dateien, die nicht direkt per Link abrufbar sind, sind nicht veröffentlicht.
Dateien, die ohne Prüfung von Zugangsdaten erreichbar sind, sind öffentlich. Wenn man sie findet, sind sie irgendwo verlinkt. Ansonsten: Man kann sie auch zufällig finden. Wer in der irrigen Annahme, dass unverlinkte Dateien nicht abgerufen werden können, wichtige geheime Informationen auf einen Webserver packt, der handelt grob fahrlässig. Es ist für den Besucher oder Webstaubsauger nicht ersichtlich, ob eine Datei nun absichtlich veröffentlich ist oder eigentlich geheim bleiben sollte. Die schlichte Anwesenheit der Datei auf dem Server spricht für ihre Veröffentlichung. Wer Material unveröffentlicht lassen will, sollte einen Paßwortschutz einrichten, oder andere Zugangsschutzmethoden anwenden.
- was ist mit Passwörtern, z. B. der Datei, die bei PHP/MySQL die Datenbank aufruft? Z. B. Strato-Nutzer müssen irgendwo das Passwort zur DB ablegen. Mißbrauch scheint hier einfach.
Ein HTTP-Client (egal ob Browser oder Webstaubsauger) können niemals an den PHP-Quellcode gelangen. Dazu benötigt man zwingend einen anderen Zugang, beispielsweise über FTP, um auf die Dateien direkt zuzugreifen zu können. Insofern ist auch ein in einer PHP-Datei abgelegtes Datenbankpasswort ungefährlich, solange der Server diese Datei niemals direkt ausliefert, sondern immer parst. Es ist deshalb sinnvoll, das Passwort immer in einer .php-Datei abzulegen - die wird geparst. Andere Dateiendungen wie .inc werden möglicherweise ungeparst ausgeliefert.
- und natürlich: gibt es Abwehrmaßnahmen?
Gute Webstaubsauger fragen die Datei robots.txt ab, welche gleichermaßen für Websauger wie auch für Suchmaschinen dient. Da man nicht grundsätzlich den Zugriff auf seine eigene Site abblocken kann (reguläre Besucher sollen ja nicht beeinträchtigt werden), ist dies dann eine Möglichkeit, wenn man Sauger-Tätigkeiten festgestellt hat.
Gemeine Webstaubsauger werden sich allerdings nicht an die Beschränkungen, die in der robots.txt aufgelistet sind, halten. Diese werden sich darüber hinaus dann auch als gewöhnlicher Browser (beispielsweise als IE) ausgeben, so dass Abwehrmassnahmen kaum greifen können. Wenn sie nett sind, laden sie nicht alle Seiten und Grafiken auf einmal, sondern lassen sich dabei etwas Zeit, so dass sie obendrein nicht unbedingt von normalen Surfern zu unterscheiden sind.
Die Frage ist allerdings: Was spricht dagegen, eine Site komplett abzusaugen. Wahrscheinlich geschieht dies von einem User mit gewissen Hintergedanken - sei es, weil er die Site so interessant findet, dass er sie lokal speichern will, um direkten Zugriff zu haben, auch wenn die Original-Site schon lange abgeschaltet ist. Einzig die Betreiber, die gerne pro Seitenansicht eine aktuelle Bannerwerbung schalten möchten, werden so etwas geschädigt - allerdings gibts auch Webwasher & Co, die Werbung ebenfalls rausfiltern.
Ich würde mich lediglich bei zuviel Traffic beschweren, dann direkt über eine größenmäßige Optimierung der Seite nachdenken (wieviele verschiedene, riesige Grafiken braucht man wirklich?), und im Notfall einfach einzelne besonders traffic-intensive Hot-Spots vorübergehend lahmlegen und vom Netz nehmen. Oder eben den Traffic bezahlen. Das Wechseln in einen größeren Hosting-Tarif mit mehr Traffic wäre noch eine Alternative.
- Sven Rautenberg