WHois: woran erkennt man einen Robot?
Andreas
- provider
0 Tom0 Geistiger Hohlraum0 Henryk Plötz
Hallo,
in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
bei 65.52.....? Woran erkenne ich ob das ein Robot ist?
Gruß Andreas
Hello,
in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
bei 65.52.....? Woran erkenne ich ob das ein Robot ist?
Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Hallo,
Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*
Jaja, gibts mir ;)
Verstehe kein Wort was du meinst. Wie kann ich ein Port scannen?
Wie sieht die Antwort aus?
Bitte erkläre es nochmal und geh davon aus dass ich ein Idiot bin ;)
Andreas
Hello,
Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*
Jaja, gibts mir ;)
Verstehe kein Wort was du meinst. Wie kann ich ein Port scannen?
Wie sieht die Antwort aus?
Bitte erkläre es nochmal und geh davon aus dass ich ein Idiot bin ;)
Langsam, langsam... War doch ein Scherz.
Aber man könnte trotzdem vermuten, dass ein Robot weniger Schwachstellen hat. Und wenn man davon einige mittels Potscan ermittelt, dann könnnte das eben ein Indiz sein. --> siehe Google.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?
Andreas
Hello,
Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?
Was würde das nutzen. Ein Robot kann genauso über wechselnde IPs kommen, wie jeder andere. Sicher wird es eine Liste von Robots geben, in der deren Name steht. Wahrscheinlich sind 50% davon entahlten mit einer Kapazität von 96% (Das ist jetzt nur so in den Raum geworfen). Du willst aber wissen, wie man den besucher identifizieren könnte. Da haben aber die Robots genauso unterschiedliche Surfangewohnheiten, wie die Menschen.
Allerdings ist es durchaus noch ein Indiz für einen Robot, wenn man eine gespreizte Anfrage bekommt. Die Leitseite wird gelesen, eine Weile Ruhe, der erste Link von der Leitseite wird gelsesen (muss nicht der erste im Script sein), eine Weile Ruhe, der nächste Link wird gelesen, eine Weile Ruhe u.s.w. So surft i.d.R. kein Mensch mit seinem Browser.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Danke für die Infos.
Gruß Andreas
Hi,
Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?
Was würde das nutzen. Ein Robot kann genauso über wechselnde IPs kommen, wie jeder andere. Sicher wird es eine Liste von Robots geben, in der deren Name steht. Wahrscheinlich sind 50% davon entahlten mit einer Kapazität von 96% (Das ist jetzt nur so in den Raum geworfen).
... und vielleicht richtig, aber irrelevant. Bei den Seiten, deren Logs ich auswerte, verzeichne ich nur einen Bruchteil der in diesen Listen geführten Robots. Um Besucherstatistiken zu erstellen, reicht es bereits, einen sehr kleiner Teil der aufgelisteten Robots zu berücksichtigen. Ich gehe eher anders herum vor und analysiere die UserAgents von echten Besuchern - ist mal eine unbekannte dabei, prüfe ich, ob es ein Robot sein könnte, was aber meist nicht der Fall ist.
Am sichersten identifiziere ich die wichtigen Robots allerdings über die IP. Das ist wirklich verläßlicher. Google und MSN Search verwenden beispielsweise je vier (mir bekannte) bestimmte IP-Bereiche, woran sie eindeutig zu erkennen sind. Dadurch fällt dann auch mal eine ungewöhnliche Kennung auf wie letztens z.B.
SonyEricssonT610/R601 Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0).
Allerdings ist es durchaus noch ein Indiz für einen Robot, wenn man eine gespreizte Anfrage bekommt. Die Leitseite wird gelesen, eine Weile Ruhe, der erste Link von der Leitseite wird gelsesen (muss nicht der erste im Script sein), eine Weile Ruhe, der nächste Link wird gelesen, eine Weile Ruhe u.s.w. So surft i.d.R. kein Mensch mit seinem Browser.
Dieses Verhalten kommt zwar vor, allerdings kommt der Googleot dabei meist über viele verschiedene IPs, so daß s schwer ist, ihn daran festzumachen. Sehr häufig wird von einer Robot-IP nur eine einzige Datei angefordert - völlig wahllos.
freundliche Grüße
Ingo
Hallo Andreas.
Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?
Nicht ganz, aber so etwas ähnliches: Liste bekannter UserAgents.
Freundschaft!
Siechfred
in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
bei 65.52.....? Woran erkenne ich ob das ein Robot ist?
Was willst Du mit der IP-Nummer, warum schaust Du nicht einfach, mit welchen Namen (User-Agent) sich der Robot meldet? Wenn der Robot sich dort nicht zu erkennen gibt, dann wirst Du ihn auch sonst nicht wirklich dauerhaft wiedererkennen können.
Hallo,
warum schaust Du nicht einfach, mit welchen Namen (User-Agent) >>sich der Robot meldet?
wie ermittelt man mit PHP den User-Agent-Namen?
Andreas
Hello,
Hallo,
warum schaust Du nicht einfach, mit welchen Namen (User-Agent) >>sich der Robot meldet?
wie ermittelt man mit PHP den User-Agent-Namen?
$_SERVER['HTTP_USER_AGENT'] könnte da helfen.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Moin,
in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
bei 65.52.....? Woran erkenne ich ob das ein Robot ist?
Du könntest schauen ob er versucht robots.txt abzurufen. Alle netten Robots sollten diese Datei holen und sich an die Anweisungen darin halten, während normale Besucher sich eher selten dafür interessieren. Wenn ein Robot dagegen unfreundlich ist und versucht, nicht von dir erkannt zu werden hast du eh keine Chance ihn zu erkennen.
Hallo Henryk
... Wenn ein Robot dagegen unfreundlich ist und versucht, nicht von dir erkannt zu werden hast du eh keine Chance ihn zu erkennen.
Wobei ich dies nicht unbedingt als Unfreundlichkeit sehe, sondern eher als
legitimen Versuch den Spam in seinen Suchergebnissen zu verringern.
Auf Wiederlesen
Detlef
Moin,
Wobei ich dies nicht unbedingt als Unfreundlichkeit sehe, sondern eher als
legitimen Versuch den Spam in seinen Suchergebnissen zu verringern.
Wer einen Robot auf breiter Basis einsetzt der sich nicht an die Wünsche in der robots.txt hält handelt IMHO asozial, Punkt. Und ohne sie abzurufen kann man sich ja auch kaum dran halten. Dass man ggbf. tricksen kann um den Abruf der robots.txt und den späteren eventuellen Abruf der Webseiten nicht einfach korrelierbar zu machen steht dann aber noch auf einem anderen Blatt, ja.
Hallo Henryk,
Natürlich hat sich ein Robot gefälligst an die Angaben in der robots.txt zu
halten.
Ich meinte, dass es nicht unbedingt eine Unfreundlichkeit darstellt, wenn der
Besuch meiner Seiten durch einen Robot nicht erkennbar ist.
Auf Wiederlesen
Detlef
Moin,
Natürlich hat sich ein Robot gefälligst an die Angaben in der robots.txt zu
halten.
Ich meinte, dass es nicht unbedingt eine Unfreundlichkeit darstellt, wenn der
Besuch meiner Seiten durch einen Robot nicht erkennbar ist.
Ah schon gut, ich hatte nicht direkt auf dein Zitat geachtet, weil ich ja ohnehin wusste was ich geschrieben habe und wie es gemeint war. Offenbar hatte ich letzteres aber nicht so erfolgreich ausdrückt.
Gemeint war ungefähr: Wenn der Robot nett ist, dann ruft er die robots.txt ab. Wenn er nicht nett ist (d.h.: die robots.txt nicht abruft) und auch sonst von dir nicht erkannt werden will, dann hast du keine Chance.