Hi,
Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?
Was würde das nutzen. Ein Robot kann genauso über wechselnde IPs kommen, wie jeder andere. Sicher wird es eine Liste von Robots geben, in der deren Name steht. Wahrscheinlich sind 50% davon entahlten mit einer Kapazität von 96% (Das ist jetzt nur so in den Raum geworfen).
... und vielleicht richtig, aber irrelevant. Bei den Seiten, deren Logs ich auswerte, verzeichne ich nur einen Bruchteil der in diesen Listen geführten Robots. Um Besucherstatistiken zu erstellen, reicht es bereits, einen sehr kleiner Teil der aufgelisteten Robots zu berücksichtigen. Ich gehe eher anders herum vor und analysiere die UserAgents von echten Besuchern - ist mal eine unbekannte dabei, prüfe ich, ob es ein Robot sein könnte, was aber meist nicht der Fall ist.
Am sichersten identifiziere ich die wichtigen Robots allerdings über die IP. Das ist wirklich verläßlicher. Google und MSN Search verwenden beispielsweise je vier (mir bekannte) bestimmte IP-Bereiche, woran sie eindeutig zu erkennen sind. Dadurch fällt dann auch mal eine ungewöhnliche Kennung auf wie letztens z.B.
SonyEricssonT610/R601 Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0).
Allerdings ist es durchaus noch ein Indiz für einen Robot, wenn man eine gespreizte Anfrage bekommt. Die Leitseite wird gelesen, eine Weile Ruhe, der erste Link von der Leitseite wird gelsesen (muss nicht der erste im Script sein), eine Weile Ruhe, der nächste Link wird gelesen, eine Weile Ruhe u.s.w. So surft i.d.R. kein Mensch mit seinem Browser.
Dieses Verhalten kommt zwar vor, allerdings kommt der Googleot dabei meist über viele verschiedene IPs, so daß s schwer ist, ihn daran festzumachen. Sehr häufig wird von einer Robot-IP nur eine einzige Datei angefordert - völlig wahllos.
freundliche Grüße
Ingo