robots indizieren 5000 mal täglich meine seite
stefan
- sonstiges
0 Sönke Tesch0 stefan
0 Frank0 stefan
hallo, ich hab überall gesucht bin aber nicht fündig gworden.
ist das richtig, daß ein einzelner robot 5000 mal meine seite indiziert?
kennt jemand AIRF oder tomorrow?
tomorrow hat es schon geschafft 20000 mal meine seite aufzurufen, an einem tag!
AIRF ist durchschnittlich mit 5000 seiten dabei.
ich habe natürlich keine 20000 seiten;)
hat jemand ein link dazu oder eventuell sich damit schon beschäftigt?
ich habe keine ahnung warum das so ist,
alle anderen robots benehmen sich anständig:)
googlebot, fireball und andere indizieren zw 2-15 seiten... von wem ist denn airf und tomorrow?
meine suchergebnisse waren ernüchternd.
bei airf habe ich air france gefunden und bei tomorrow ein haufen irgendwelcher mittelmäßiger online zeitungen...
gruß
stefan
hallo, ich hab überall gesucht bin aber nicht fündig gworden.
ist das richtig, daß ein einzelner robot 5000 mal meine seite indiziert?
Nein.
kennt jemand AIRF oder tomorrow?
Steht keine Kontaktadresse im Protokoll? Wenn nicht, kannst Du auf diese Viecher und den Dienst, der dahinter steht, wahrscheinlich sowieso verzichten - wenn's was seriöses wäre, würden die sich ja identifizieren, weil sie wert auf Feedback und Fehlermeldungen legen.
Da sich Deine Plagegeister mit großer Wahrscheinlichkeit nicht an die robots.txt halten, ist die sinnvollste Aussperr-Möglichkeit wohl eine SetEnv/Allow-Kombination in der obersten .htaccess, ähnlich dieser:
SetEnvIf Remote_Host ^sync.*.avantgo.com$ blockspider
SetEnvIf User-Agent compatible;?AvantGo blockspider
Order Deny,Allow
Deny from env=blockspider
Damit halte ich mir AvantGo vom Hals, die ohne erkennbaren Nutzen gerne zweimal wöchentlich meine Seiten komplett, inklusive Grafiken, CSS- und Javascript-Dateien, abgerufen haben.
Du wirst diese Maschinen zwar nicht unbedingt komplett los, aber die "Attacken" beschränken suchh meistens nur noch auf eine Handvoll Eingangsseiten die mit 403-Fehlermeldungen quittiert werden.
Die Beschreibung von SetEnv/If und Allow findest Du in der Apache-Anleitung unter <httpd.apache.org/docs/mod/mod_setenvif.html#setenvif> und http://httpd.apache.org/docs/mod/mod_access.html#allow.
Gruß,
soenk.e
Die Beschreibung von SetEnv/If und Allow findest Du in der Apache-Anleitung unter <httpd.apache.org/docs/mod/mod_setenvif.html#setenvif> und http://httpd.apache.org/docs/mod/mod_access.html#allow.
Gruß,
soenk.e
vielen dank für die hilfreichen infos.
gruß
stefan
Bist Du sicher, dass es robots sind.
Möglicherweise kann es sein, dass man Deinen Content verwendet.
Ein Skript liest jedesmal den Content einer Fremdseite aus und stellt die Daten im eigenen Layout dar.
Bitte prüfe das mal.
Bist Du sicher, dass es robots sind.
Möglicherweise kann es sein, dass man Deinen Content verwendet.
Ein Skript liest jedesmal den Content einer Fremdseite aus und stellt die Daten im eigenen Layout dar.
sehr interessanter aspekt, das habe ich noch gar nicht bedacht.daß es robots seien, hab ich daraus geschlossen, da diese in meiner log unter robots geführt sind.
hmm ist aber natürlich schwerig sich durch raw logs durchzukämpfen, um jetzt die übeltäter zu finden.meine log analyse gibt das nicht mehr her und leider wachsen meine raw logs auf 200 MB am tag an. kennst du vielleicht eine software, die solche mengen an daten verarbeiten kann und dennoch komfortable suchfunktionen besitzt?
gruß
stefan
hmm ist aber natürlich schwerig sich durch raw logs durchzukämpfen, um jetzt die übeltäter zu finden.meine log analyse gibt das nicht mehr her und leider wachsen meine raw logs auf 200 MB am tag an. kennst du vielleicht eine software, die solche mengen an daten verarbeiten kann und dennoch komfortable suchfunktionen besitzt?
Schreib Dir ein Shellscript, das die betreffenden Zeilen raussucht (grep, http://steve-parker.org/sh/man/gnu/grep.1.html, Komprimierung der Ausgabe durch gzip bringt zusätzlich enorme Einsparungen), es geht ja nur um einige bestimmte Datensätze. Etwa so in der Art (nicht ausprobiert):
echo -ne "Content-Type: text/plain\r\n"
echo -ne "Content-Encoding: gzip\r\n"
echo -ne "\r\n"
grep -e "airf|tomorrow" pfad/zur/access_log | gzip -9
Möglicherweise solltest Du die Content-Encoding- und gzip-Zeile rausschmeißen, um die Skriptfehler zu beheben :]
Das Skript speicherst Du mit der Endung .cgi oder im cgi-bin-Ordner und rufst es dann einfach per Browser auf.
Gruß,
soenk.e
PS: Berichte doch mal, was Du rausgefunden hast, wenn da tatsächlich jemand Deine Sachen klaut.