robots indizieren 5000 mal täglich meine seite von Sönke Tesch, 14.12.2002 18:24

robots indizieren 5000 mal täglich meine seite

stefan 14.12.2002 16:45

sonstiges

hallo, ich hab überall gesucht bin aber nicht fündig gworden.
ist das richtig, daß ein einzelner robot 5000 mal meine seite indiziert?

kennt jemand AIRF oder tomorrow?

tomorrow hat es schon geschafft 20000 mal meine seite aufzurufen, an einem tag!
AIRF ist durchschnittlich mit 5000 seiten dabei.

ich habe natürlich keine 20000 seiten;)

hat jemand ein link dazu oder eventuell sich damit schon beschäftigt?

ich habe keine ahnung warum das so ist,
alle anderen robots benehmen sich anständig:)
googlebot, fireball und andere indizieren zw 2-15 seiten... von wem ist denn airf und tomorrow?

meine suchergebnisse waren ernüchternd.
bei airf habe ich air france gefunden und bei tomorrow ein haufen irgendwelcher mittelmäßiger online zeitungen...

gruß
stefan

Beitrag melden

– Informationen zu den Bewertungsregeln

robots indizieren 5000 mal täglich meine seite
Sönke Tesch 14.12.2002 18:24

sonstiges
– Informationen zu den Bewertungsregeln
hallo, ich hab überall gesucht bin aber nicht fündig gworden.
ist das richtig, daß ein einzelner robot 5000 mal meine seite indiziert?

Nein.

kennt jemand AIRF oder tomorrow?

Steht keine Kontaktadresse im Protokoll? Wenn nicht, kannst Du auf diese Viecher und den Dienst, der dahinter steht, wahrscheinlich sowieso verzichten - wenn's was seriöses wäre, würden die sich ja identifizieren, weil sie wert auf Feedback und Fehlermeldungen legen.

Da sich Deine Plagegeister mit großer Wahrscheinlichkeit nicht an die robots.txt halten, ist die sinnvollste Aussperr-Möglichkeit wohl eine SetEnv/Allow-Kombination in der obersten .htaccess, ähnlich dieser:

SetEnvIf Remote_Host ^sync.*.avantgo.com$ blockspider
SetEnvIf User-Agent compatible;?AvantGo blockspider
Order Deny,Allow
Deny from env=blockspider

Damit halte ich mir AvantGo vom Hals, die ohne erkennbaren Nutzen gerne zweimal wöchentlich meine Seiten komplett, inklusive Grafiken, CSS- und Javascript-Dateien, abgerufen haben.

Du wirst diese Maschinen zwar nicht unbedingt komplett los, aber die "Attacken" beschränken suchh meistens nur noch auf eine Handvoll Eingangsseiten die mit 403-Fehlermeldungen quittiert werden.

Die Beschreibung von SetEnv/If und Allow findest Du in der Apache-Anleitung unter <httpd.apache.org/docs/mod/mod_setenvif.html#setenvif> und http://httpd.apache.org/docs/mod/mod_access.html#allow.

Gruß,
soenk.e
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots indizieren 5000 mal täglich meine seite
  
  stefan 15.12.2002 18:04
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Die Beschreibung von SetEnv/If und Allow findest Du in der Apache-Anleitung unter <httpd.apache.org/docs/mod/mod_setenvif.html#setenvif> und http://httpd.apache.org/docs/mod/mod_access.html#allow.
  
  Gruß,
  soenk.e
  
  vielen dank für die hilfreichen infos.
  
  gruß
  stefan
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
robots indizieren 5000 mal täglich meine seite
Frank 15.12.2002 15:51

sonstiges
– Informationen zu den Bewertungsregeln
Bist Du sicher, dass es robots sind.

Möglicherweise kann es sein, dass man Deinen Content verwendet.

Ein Skript liest jedesmal den Content einer Fremdseite aus und stellt die Daten im eigenen Layout dar.

Bitte prüfe das mal.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. robots indizieren 5000 mal täglich meine seite
  
  stefan 15.12.2002 18:03
  
  sonstiges
  – Informationen zu den Bewertungsregeln
  Bist Du sicher, dass es robots sind.
  Möglicherweise kann es sein, dass man Deinen Content verwendet.
  Ein Skript liest jedesmal den Content einer Fremdseite aus und stellt die Daten im eigenen Layout dar.
  
  sehr interessanter aspekt, das habe ich noch gar nicht bedacht.daß es robots seien, hab ich daraus geschlossen, da diese in meiner log unter robots geführt sind.
  hmm ist aber natürlich schwerig sich durch raw logs durchzukämpfen, um jetzt die übeltäter zu finden.meine log analyse gibt das nicht mehr her und leider wachsen meine raw logs auf 200 MB am tag an. kennst du vielleicht eine software, die solche mengen an daten verarbeiten kann und dennoch komfortable suchfunktionen besitzt?
  
  gruß
  stefan
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. robots indizieren 5000 mal täglich meine seite
    
    Sönke Tesch 16.12.2002 12:21
    
    sonstiges
    
    – Informationen zu den Bewertungsregeln
    hmm ist aber natürlich schwerig sich durch raw logs durchzukämpfen, um jetzt die übeltäter zu finden.meine log analyse gibt das nicht mehr her und leider wachsen meine raw logs auf 200 MB am tag an. kennst du vielleicht eine software, die solche mengen an daten verarbeiten kann und dennoch komfortable suchfunktionen besitzt?
    
    Schreib Dir ein Shellscript, das die betreffenden Zeilen raussucht (grep, http://steve-parker.org/sh/man/gnu/grep.1.html, Komprimierung der Ausgabe durch gzip bringt zusätzlich enorme Einsparungen), es geht ja nur um einige bestimmte Datensätze. Etwa so in der Art (nicht ausprobiert):
    
    echo -ne "Content-Type: text/plain\r\n"
    echo -ne "Content-Encoding: gzip\r\n"
    echo -ne "\r\n"
    
    grep -e "airf|tomorrow" pfad/zur/access_log | gzip -9
    
    Möglicherweise solltest Du die Content-Encoding- und gzip-Zeile rausschmeißen, um die Skriptfehler zu beheben :]
    
    Das Skript speicherst Du mit der Endung .cgi oder im cgi-bin-Ordner und rufst es dann einfach per Browser auf.
    
    Gruß,
    soenk.e
    
    PS: Berichte doch mal, was Du rausgefunden hast, wenn da tatsächlich jemand Deine Sachen klaut.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

stefan: robots indizieren 5000 mal täglich meine seite