Viennamade: | Apache, feststellen ob Surfer oder Robot

Hallo liebe Forumer!

Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
  einen mit Browser ausgestatten homo sapiens
  eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
durchgeführt wird?

Beste Grüße
Viennamade

  1. hi Viennamade

    naja, du könntest schauen ob sich der robot als solcher zu erkennen gibt. die meisten die ich kenne machen das (z.B. GoogleBot oder MSNBot)

    benötigst halt "nur" eine liste mit den Bot-Namen, die sollte aber wohl irgendwo via google aufzutreiben sein :)

    so long
    ole
    (8-)>

    --
    Vegetables? Yes,...for example garlic!
  2. Hello,

    Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
      einen mit Browser ausgestatten homo sapiens
      eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
    durchgeführt wird?

    nicht wirklich.
    Allerdings kannst Du beim Request die IP auflösen und die meisten Suchmaschinen verstecken sich keinesfalls. Außerdem haben Suchmaschinen selten einen Referrer gesetzt, und wenn doch, dann verweist der auf die Suchmaschine selbst.
    Suchmaschinen beginnen auch häufig ein oder zwei Tage vorher mit einem HEAD und kommen dann erst mit dem GET wieder, wenn dieser erfolgreich war. Ist einfach Arbeitsvorbereitung.

    Wenn Du Deine Logs also mal selber auswertest, dann kannst Du gewisse Verhaltensweisen fetstellen.
    Sicher ist da aber nix.

    Harzliche Grüße aus http://www.annerschbarrich.de

    Tom

    --
    Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
    Nur selber lernen macht schlau
  3. Moin!

    Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
      einen mit Browser ausgestatten homo sapiens
      eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
    durchgeführt wird?

    Es gibt die User-Agent-Angabe, auf die man sich nicht 100% verlassen kann (einerseits, ob sie überhaupt vorhanden ist, andererseits, ob sie stimmt), die man aber als Indikator ansehen kann.

    Die HTTP-Requests an sich sind allesamt gleich, da ist kein Unterschied zwischen Mensch und Maschine festzustellen.

    Beziehungsweise sind die Unterschiede nicht binär, sondern allenfalls mit menschlicher Intelligenz und gewissen Wahrscheinlichkeiten zu raten. Ein einzelner Request nach "robots.txt" von "Googlebot 2.1" wird mit hoher Wahrscheinlichkeit die bekannte Suchmaschine gewesen sein - aber es ist nicht auszuschließen, dass vielleicht auch ein Mensch nachgeschaut hat, ob Google nicht mit einer Customized-Version der robots.txt bedient wird, die vielleicht mehr oder weniger erlaubt, als alle anderen Webteilnehmer wünschen.

    Genauso kann ein "durchdrehender" Spider innerhalb weniger Sekunden mehrere hundert Requests absenden - das kann aber auch eine "jetzt gehen wir alle mal auf die Seite XY"-Bewegung einer PC-Klasse sein, die alle durch eine einzige IP gehen.

    Es gibt jedenfalls kein Flag, das anzeigt "Ich bin Maschine" oder "Ich bin Mensch".

    - Sven Rautenberg

  4. Hallo!

    Herzlichen Dank für Eure antworten - ich sehe klarer! (I can see clearly now the rain has gone).

    @Sven:

    ... "Ich bin Maschine"

    So weit kommts noch - g.

    Beste Grüße
    Viennamade

  5. Gibts eine Möglichkeit mit Apache oder PHP festzustellen, ob ein Request durch
      einen mit Browser ausgestatten homo sapiens
      eine Suchmaschine (an solche denke ich, aber was weiß ich, was es sonst noch an proxis, etc. gibt)
    durchgeführt wird?

    wenns denn der 1. request ist, sehe ich keine nicht manipulierbare möglichkeit.

    allerdings kann man ja einen client wiedererkennen. d.h. wenn der schon einmal kontakt hatte. vielleicht suchst du ja so etwas.

    1. Hallo fk (</faq/#Q-05a>)

      allerdings kann man ja einen client wiedererkennen. d.h. wenn der schon einmal kontakt hatte.

      Es mag Möglichkeiten geben, dies in den meisten Fällen zu erreichen, dennoch gibt es nichts derartiges, was bei allen Besucher funktionieren würde.

      Gruß,

      Johannes

      --
      ss:| zu:) ls:[ fo:) de:] va:) ch:) n4:| rl:) br:< js:| ie:{ fl:( mo:}
      1. ich gebe dir völlig recht.

        wenn jemand auf meine seiten kommt, erzähle ich ihm das blaue vom himmel.