Sönke Tesch: Massendownloads via HTTrack & Co verhindern

Beitrag lesen

Wenn nun jemand mit Programmen wie HTTrack oder Offline Explorer versucht, unsere Seite komplett zu saugen, sind schnell mal 500 MB Traffic aufgekommen.

Gibt es eine Möglichkeit, per htaccess oder so, solche Programme auszuhebeln?

Ihr könnt diese Programme per mod_access/mod_env ganz aussperren. Ich blockiere beispielsweise einen Spider, der sich an keinerlei Regeln hält und wöchentlich meine Seiten komplett rauf und runter abrufen will (inklusive Grafiken, CSS- und Javascript-Dateien), folgendermaßen:

SetEnvIf User-Agent compatible;?AvantGo blockspider
  Order Deny,Allow
  Deny from env=blockspider

Das geht natürlich nur, solange Euch die Namen der Programme bekannt sind und die Identifikation auf Benutzerseite nicht ausgeblendet wird (Stichwort Webwasher). Obendrein ist diese Methode vielleicht etwas sehr rigide, weil sie Leute, die nur einen kleinen Teil zum Offline-Lesen runterladen wollen, ebenfalls betrifft.

Probiert stattdessen (oder zusätzlich) besser mod_throttle ( http://www.snert.com/Software/mod_throttle/). Soweit ich das überblicke, sollte dort mittels ThrottleClientIP eine volumenabhängige Auszeit pro IP möglich sein.

Gruß,
  soenk.e