| Apache, feststellen ob Surfer oder Robot
Viennamade
- php
Hallo liebe Forumer!
Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
einen mit Browser ausgestatten homo sapiens
eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
durchgeführt wird?
Beste Grüße
Viennamade
hi Viennamade
naja, du könntest schauen ob sich der robot als solcher zu erkennen gibt. die meisten die ich kenne machen das (z.B. GoogleBot oder MSNBot)
benötigst halt "nur" eine liste mit den Bot-Namen, die sollte aber wohl irgendwo via google aufzutreiben sein :)
so long
ole
(8-)>
Hello,
Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
einen mit Browser ausgestatten homo sapiens
eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
durchgeführt wird?
nicht wirklich.
Allerdings kannst Du beim Request die IP auflösen und die meisten Suchmaschinen verstecken sich keinesfalls. Außerdem haben Suchmaschinen selten einen Referrer gesetzt, und wenn doch, dann verweist der auf die Suchmaschine selbst.
Suchmaschinen beginnen auch häufig ein oder zwei Tage vorher mit einem HEAD und kommen dann erst mit dem GET wieder, wenn dieser erfolgreich war. Ist einfach Arbeitsvorbereitung.
Wenn Du Deine Logs also mal selber auswertest, dann kannst Du gewisse Verhaltensweisen fetstellen.
Sicher ist da aber nix.
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Moin!
Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
einen mit Browser ausgestatten homo sapiens
eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
durchgeführt wird?
Es gibt die User-Agent-Angabe, auf die man sich nicht 100% verlassen kann (einerseits, ob sie überhaupt vorhanden ist, andererseits, ob sie stimmt), die man aber als Indikator ansehen kann.
Die HTTP-Requests an sich sind allesamt gleich, da ist kein Unterschied zwischen Mensch und Maschine festzustellen.
Beziehungsweise sind die Unterschiede nicht binär, sondern allenfalls mit menschlicher Intelligenz und gewissen Wahrscheinlichkeiten zu raten. Ein einzelner Request nach "robots.txt" von "Googlebot 2.1" wird mit hoher Wahrscheinlichkeit die bekannte Suchmaschine gewesen sein - aber es ist nicht auszuschließen, dass vielleicht auch ein Mensch nachgeschaut hat, ob Google nicht mit einer Customized-Version der robots.txt bedient wird, die vielleicht mehr oder weniger erlaubt, als alle anderen Webteilnehmer wünschen.
Genauso kann ein "durchdrehender" Spider innerhalb weniger Sekunden mehrere hundert Requests absenden - das kann aber auch eine "jetzt gehen wir alle mal auf die Seite XY"-Bewegung einer PC-Klasse sein, die alle durch eine einzige IP gehen.
Es gibt jedenfalls kein Flag, das anzeigt "Ich bin Maschine" oder "Ich bin Mensch".
- Sven Rautenberg
Hallo!
Herzlichen Dank für Eure antworten - ich sehe klarer! (I can see clearly now the rain has gone).
@Sven:
... "Ich bin Maschine"
So weit kommts noch - g.
Beste Grüße
Viennamade
Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
einen mit Browser ausgestatten homo sapiens
eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
durchgeführt wird?
wenns denn der 1. request ist, sehe ich keine nicht manipulierbare möglichkeit.
allerdings kann man ja einen client wiedererkennen. d.h. wenn der schon einmal kontakt hatte. vielleicht suchst du ja so etwas.
Hallo fk (</faq/#Q-05a>)
allerdings kann man ja einen client wiedererkennen. d.h. wenn der schon einmal kontakt hatte.
Es mag Möglichkeiten geben, dies in den meisten Fällen zu erreichen, dennoch gibt es nichts derartiges, was bei allen Besucher funktionieren würde.
Gruß,
Johannes
ich gebe dir völlig recht.
wenn jemand auf meine seiten kommt, erzähle ich ihm das blaue vom himmel.