Website-Sauger
Peter
- software
Hallo,
momentan werden (z. B. im "Internet Magazin") allerlei Programme angepriesen, mit denen sich ganze Websites vom Server saugen lassen, incl. versteckt geladener .
Nun ist mir klar, daß ein Website dazu dient, gelesesen und ggf. gespeichert zu werden. Sollten Programme dieser Art aber weit Verbreitung finden, so wird manche beliebte (Private Hobby-)Seite bald offline gehen, denn das Limit an Traffic dürfte rasch erreicht sein. Daran hat wohl niemand gedacht, daß massiv ganze Sites gesogen werden. Auch nicht, daß nicht direkt verlinkte Seiten damit gezogen werden können.
Hierzu folgende Fragen:
was meinen Sie / meint Ihr insgesamt zu solchen Programmen?
ist das eigentlich rechtlich in Ordnung? Dateien, die nicht direkt per Link abrufbar sind, sind nicht veröffentlicht.
was ist mit Passwörtern, z. B. der Datei, die bei PHP/MySQL die Datenbank aufruft? Z. B. Strato-Nutzer müssen irgendwo das Passwort zur DB ablegen. Mißbrauch scheint hier einfach.
und natürlich: gibt es Abwehrmaßnahmen?
Grüße aus Hessen
Peter
Moin!
momentan werden (z. B. im "Internet Magazin") allerlei Programme angepriesen, mit denen sich ganze Websites vom Server saugen lassen, incl. versteckt geladener .
Diese Programme sind nicht neu. Wenn sie nun wieder einmal angepriesen werden, ist das lediglich ein Zeichen dafür, dass den Redaktionen gerade nichts anderes einfällt. Die Zahl der Benutzer dürfte sich durch solche Aktionen kaum signifikant erhöhen.
Nun ist mir klar, daß ein Website dazu dient, gelesesen und ggf. gespeichert zu werden. Sollten Programme dieser Art aber weit Verbreitung finden, so wird manche beliebte (Private Hobby-)Seite bald offline gehen, denn das Limit an Traffic dürfte rasch erreicht sein. Daran hat wohl niemand gedacht, daß massiv ganze Sites gesogen werden. Auch nicht, daß nicht direkt verlinkte Seiten damit gezogen werden können.
Mal ganz grundsätzlich:
Erstens: Alle Ressourcen, deren URL dem Client (egal, ob es ein Browser oder ein Webstaubsauger ist) bekannt sind, lassen sich runterladen, sofern nicht gewisse Zugangssperren dies verhindern (Stichwort .htaccess-Login).
Zweitens: Sofern der Client nicht durch irgendwelche Hinweise Kenntnis von ansonsten versteckten Dateien erhält (beispielsweise durch Directory-Listing) oder alle Zeichenkombinationen von Dateinamen durchprobiert, solange kann er unverlinkte Ressourcen nicht auffinden.
Hierzu folgende Fragen:
- was meinen Sie / meint Ihr insgesamt zu solchen Programmen?
Es gibt sie, und sie verhalten sich gegenüber dem Server wie ein ganz gewöhnlicher HTTP-Client. Ihre Verwendung ist nicht verwerflich.
- ist das eigentlich rechtlich in Ordnung? Dateien, die nicht direkt per Link abrufbar sind, sind nicht veröffentlicht.
Dateien, die ohne Prüfung von Zugangsdaten erreichbar sind, sind öffentlich. Wenn man sie findet, sind sie irgendwo verlinkt. Ansonsten: Man kann sie auch zufällig finden. Wer in der irrigen Annahme, dass unverlinkte Dateien nicht abgerufen werden können, wichtige geheime Informationen auf einen Webserver packt, der handelt grob fahrlässig. Es ist für den Besucher oder Webstaubsauger nicht ersichtlich, ob eine Datei nun absichtlich veröffentlich ist oder eigentlich geheim bleiben sollte. Die schlichte Anwesenheit der Datei auf dem Server spricht für ihre Veröffentlichung. Wer Material unveröffentlicht lassen will, sollte einen Paßwortschutz einrichten, oder andere Zugangsschutzmethoden anwenden.
- was ist mit Passwörtern, z. B. der Datei, die bei PHP/MySQL die Datenbank aufruft? Z. B. Strato-Nutzer müssen irgendwo das Passwort zur DB ablegen. Mißbrauch scheint hier einfach.
Ein HTTP-Client (egal ob Browser oder Webstaubsauger) können niemals an den PHP-Quellcode gelangen. Dazu benötigt man zwingend einen anderen Zugang, beispielsweise über FTP, um auf die Dateien direkt zuzugreifen zu können. Insofern ist auch ein in einer PHP-Datei abgelegtes Datenbankpasswort ungefährlich, solange der Server diese Datei niemals direkt ausliefert, sondern immer parst. Es ist deshalb sinnvoll, das Passwort immer in einer .php-Datei abzulegen - die wird geparst. Andere Dateiendungen wie .inc werden möglicherweise ungeparst ausgeliefert.
- und natürlich: gibt es Abwehrmaßnahmen?
Gute Webstaubsauger fragen die Datei robots.txt ab, welche gleichermaßen für Websauger wie auch für Suchmaschinen dient. Da man nicht grundsätzlich den Zugriff auf seine eigene Site abblocken kann (reguläre Besucher sollen ja nicht beeinträchtigt werden), ist dies dann eine Möglichkeit, wenn man Sauger-Tätigkeiten festgestellt hat.
Gemeine Webstaubsauger werden sich allerdings nicht an die Beschränkungen, die in der robots.txt aufgelistet sind, halten. Diese werden sich darüber hinaus dann auch als gewöhnlicher Browser (beispielsweise als IE) ausgeben, so dass Abwehrmassnahmen kaum greifen können. Wenn sie nett sind, laden sie nicht alle Seiten und Grafiken auf einmal, sondern lassen sich dabei etwas Zeit, so dass sie obendrein nicht unbedingt von normalen Surfern zu unterscheiden sind.
Die Frage ist allerdings: Was spricht dagegen, eine Site komplett abzusaugen. Wahrscheinlich geschieht dies von einem User mit gewissen Hintergedanken - sei es, weil er die Site so interessant findet, dass er sie lokal speichern will, um direkten Zugriff zu haben, auch wenn die Original-Site schon lange abgeschaltet ist. Einzig die Betreiber, die gerne pro Seitenansicht eine aktuelle Bannerwerbung schalten möchten, werden so etwas geschädigt - allerdings gibts auch Webwasher & Co, die Werbung ebenfalls rausfiltern.
Ich würde mich lediglich bei zuviel Traffic beschweren, dann direkt über eine größenmäßige Optimierung der Seite nachdenken (wieviele verschiedene, riesige Grafiken braucht man wirklich?), und im Notfall einfach einzelne besonders traffic-intensive Hot-Spots vorübergehend lahmlegen und vom Netz nehmen. Oder eben den Traffic bezahlen. Das Wechseln in einen größeren Hosting-Tarif mit mehr Traffic wäre noch eine Alternative.
- Sven Rautenberg
Hallo Peter.
Die Bedenken was die Sicherheit angeht dürften hinfällig sein. Jedes Programm das Deine Site anschaut kann dies nur per HTTP tun und bekommt somit auch nur das zu sehen, was ein normaler User auch sieht. PHP-Dateien werden somit nicht als Quellcode gesaugt, sondern lediglich das Ergebnis, das die Skripte ausliefern (i.d.R. HTML).
Wie ein solches Programm an versteckte Dateien kommen soll ist mir schleierhaft. Lediglich über Zugriff per FTP wäre sowas möglich, und dazu brauchst die Zugangsdaten. Oder der Server ist schlecht konfiguriert und lässt eine Verzeichnisübersicht bei fehlender index-Seite zu. Ansonsten kann das Programm die Dateinamen ja gar nicht herausfinden.
Ansich finde ich solche Programme gar nicht so schlecht. Manchmal ist ganz nett sich Seite mal schnell runter zu ziehen und dann irgendwann in aller Ruhe (z.B. auf Zugfahrten am Notebook) anzuschauen. Oder manche mehrseitigen Artikel sich ins eigene Archiv auf der Festplatte zu legen ist auch nicht immer verkehrt. Viele Seiten verschwinden auch aus dem netz wieder, und will man dann wieder was nachschauen (hat's ja gebookmarkt) oder am Design was abschauen is nichts mehr da.
Grüße aus Würzburg
Julian
Hallo,
... Sollten Programme dieser Art aber weit Verbreitung finden, so wird manche beliebte (Private Hobby-)Seite bald offline gehen, denn das Limit an Traffic dürfte rasch erreicht sein. ...
Das glaube ich kaum. Denn was soll man mit einer Sammlung von 100 oder gar 1000 Websites, die in 4 Wochen bereits veraltet sind? Wenn einen das wirklich interessiert, dann ist man mit http://web.archive.org/collections/web.html wahrscheinlich besser bedient.
Wenn ich aber daran denke, wie lange ich bei einer einzelnen Seite online bin, wenn mich etwas interessiert, und wie oft ich da hin und herblättere, da wäre es manchmal sicher erheblich billiger, erst die ganze Site herunterzuladen. Und im Endeffekt wäre es manchmal sogar ***weniger*** trafic.
Für Deine Befürchtungen sehe ich jedenfalls keinen Anlaß.
Gruß
Hans35
Hierzu folgende Fragen:
- was meinen Sie / meint Ihr insgesamt zu solchen Programmen?
- ist das eigentlich rechtlich in Ordnung? Dateien, die nicht direkt per Link abrufbar sind, sind nicht veröffentlicht.
- was ist mit Passwörtern, z. B. der Datei, die bei PHP/MySQL die Datenbank aufruft? Z. B. Strato-Nutzer müssen irgendwo das Passwort zur DB ablegen. Mißbrauch scheint hier einfach.
- und natürlich: gibt es Abwehrmaßnahmen?
Grüße aus Hessen
Peter