Andreas: WHois: woran erkennt man einen Robot?

Hallo,
in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
bei 65.52.....? Woran erkenne ich ob das ein Robot ist?

Gruß Andreas

  1. Hello,

    in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
    Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
    bei 65.52.....? Woran erkenne ich ob das ein Robot ist?

    Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*

    Harzliche Grüße aus http://www.annerschbarrich.de

    Tom

    --
    Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
    Nur selber lernen macht schlau
    1. Hallo,

      Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*

      Jaja, gibts mir ;)
      Verstehe kein Wort was du meinst. Wie kann ich ein Port scannen?
      Wie sieht die Antwort aus?
      Bitte erkläre es nochmal und geh davon aus dass ich ein Idiot bin ;)

      Andreas

      1. Hello,

        Vielleicht daran, dass das System beim sofortigen Potscan nicht mit "Windows XP" antwortet? *ggg*
        Jaja, gibts mir ;)
        Verstehe kein Wort was du meinst. Wie kann ich ein Port scannen?
        Wie sieht die Antwort aus?
        Bitte erkläre es nochmal und geh davon aus dass ich ein Idiot bin ;)

        Langsam, langsam...   War doch ein Scherz.

        Aber man könnte trotzdem vermuten, dass ein Robot weniger Schwachstellen hat. Und wenn man davon einige mittels Potscan ermittelt, dann könnnte das eben ein Indiz sein. --> siehe Google.

        Harzliche Grüße aus http://www.annerschbarrich.de

        Tom

        --
        Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
        Nur selber lernen macht schlau
        1. Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?

          Andreas

          1. Hello,

            Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?

            Was würde das nutzen. Ein Robot kann genauso über wechselnde IPs kommen, wie jeder andere. Sicher wird es eine Liste von Robots geben, in der deren Name steht. Wahrscheinlich sind 50% davon entahlten mit einer Kapazität von 96% (Das ist jetzt nur so in den Raum geworfen). Du willst aber wissen, wie man den besucher identifizieren könnte. Da haben aber die Robots genauso unterschiedliche Surfangewohnheiten, wie die Menschen.

            Allerdings ist es durchaus noch ein Indiz für einen Robot, wenn man eine gespreizte Anfrage bekommt. Die Leitseite wird gelesen, eine Weile Ruhe, der erste Link von der Leitseite wird gelsesen (muss nicht der erste im Script sein), eine Weile Ruhe, der nächste Link wird gelesen, eine Weile Ruhe u.s.w. So surft i.d.R. kein Mensch mit seinem Browser.

            Harzliche Grüße aus http://www.annerschbarrich.de

            Tom

            --
            Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
            Nur selber lernen macht schlau
            1. Danke für die Infos.
              Gruß Andreas

            2. Hi,

              Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?

              Was würde das nutzen. Ein Robot kann genauso über wechselnde IPs kommen, wie jeder andere. Sicher wird es eine Liste von Robots geben, in der deren Name steht. Wahrscheinlich sind 50% davon entahlten mit einer Kapazität von 96% (Das ist jetzt nur so in den Raum geworfen).

              ... und vielleicht richtig, aber irrelevant. Bei den Seiten, deren Logs ich auswerte, verzeichne ich nur einen Bruchteil der in diesen Listen geführten Robots. Um Besucherstatistiken zu erstellen, reicht es bereits, einen sehr kleiner Teil der aufgelisteten Robots zu berücksichtigen. Ich gehe eher anders herum vor und analysiere die UserAgents von echten Besuchern - ist mal eine unbekannte dabei, prüfe ich, ob es ein Robot sein könnte, was aber meist nicht der Fall ist.

              Am sichersten identifiziere ich die wichtigen Robots allerdings über die IP. Das ist wirklich verläßlicher. Google und MSN Search verwenden beispielsweise je vier (mir bekannte) bestimmte IP-Bereiche, woran sie eindeutig zu erkennen sind. Dadurch fällt dann auch mal eine ungewöhnliche Kennung auf wie letztens z.B.
              SonyEricssonT610/R601 Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0).

              Allerdings ist es durchaus noch ein Indiz für einen Robot, wenn man eine gespreizte Anfrage bekommt. Die Leitseite wird gelesen, eine Weile Ruhe, der erste Link von der Leitseite wird gelsesen (muss nicht der erste im Script sein), eine Weile Ruhe, der nächste Link wird gelesen, eine Weile Ruhe u.s.w. So surft i.d.R. kein Mensch mit seinem Browser.

              Dieses Verhalten kommt zwar vor, allerdings kommt der Googleot dabei meist über viele verschiedene IPs, so daß s schwer ist, ihn daran festzumachen. Sehr häufig wird von einer Robot-IP nur eine einzige Datei angefordert - völlig wahllos.

              freundliche Grüße
              Ingo

          2. Hallo Andreas.

            Also gibt es wohl nirgends eine Liste mit den Robots die unterwegs sind?

            Nicht ganz, aber so etwas ähnliches: Liste bekannter UserAgents.

            Freundschaft!
            Siechfred

            --
            Nichts ist schwerer einzureißen als die Mauer in den Köpfen.
  2. in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
    Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
    bei 65.52.....? Woran erkenne ich ob das ein Robot ist?

    Was willst Du mit der IP-Nummer, warum schaust Du nicht einfach, mit welchen Namen (User-Agent) sich der Robot meldet? Wenn der Robot sich dort nicht zu erkennen gibt, dann wirst Du ihn auch sonst nicht wirklich dauerhaft wiedererkennen können.

    1. Hallo,

      warum schaust Du nicht einfach, mit welchen Namen (User-Agent) >>sich der Robot meldet?

      wie ermittelt man mit PHP den User-Agent-Namen?

      Andreas

      1. Hello,

        Hallo,

        warum schaust Du nicht einfach, mit welchen Namen (User-Agent) >>sich der Robot meldet?
        wie ermittelt man mit PHP den User-Agent-Namen?

        $_SERVER['HTTP_USER_AGENT'] könnte da helfen.

        Harzliche Grüße aus http://www.annerschbarrich.de

        Tom

        --
        Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
        Nur selber lernen macht schlau
  3. Moin,

    in der Whois-Auflistung einer IP-Adresse sind ja diverse Angaben wie z.B. OrgName, NetName oder NetType.
    Wenn da Google irgendwo steht ist es ja ziemlich klar, aber wer z.B.
    bei 65.52.....? Woran erkenne ich ob das ein Robot ist?

    Du könntest schauen ob er versucht robots.txt abzurufen. Alle netten Robots sollten diese Datei holen und sich an die Anweisungen darin halten, während normale Besucher sich eher selten dafür interessieren. Wenn ein Robot dagegen unfreundlich ist und versucht, nicht von dir erkannt zu werden hast du eh keine Chance ihn zu erkennen.

    --
    Henryk Plötz
    Grüße aus Berlin
    ~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
    ~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~
    1. Hallo Henryk

      ... Wenn ein Robot dagegen unfreundlich ist und versucht, nicht von dir erkannt zu werden hast du eh keine Chance ihn zu erkennen.

      Wobei ich dies nicht unbedingt als Unfreundlichkeit sehe, sondern eher als
      legitimen Versuch den Spam in seinen Suchergebnissen zu verringern.

      Auf Wiederlesen
      Detlef

      --
      - Wissen ist gut
      - Können ist besser
      - aber das Beste und Interessanteste ist der Weg dahin!
      1. Moin,

        Wobei ich dies nicht unbedingt als Unfreundlichkeit sehe, sondern eher als
        legitimen Versuch den Spam in seinen Suchergebnissen zu verringern.

        Wer einen Robot auf breiter Basis einsetzt der sich nicht an die Wünsche in der robots.txt hält handelt IMHO asozial, Punkt. Und ohne sie abzurufen kann man sich ja auch kaum dran halten. Dass man ggbf. tricksen kann um den Abruf der robots.txt und den späteren eventuellen Abruf der Webseiten nicht einfach korrelierbar zu machen steht dann aber noch auf einem anderen Blatt, ja.

        --
        Henryk Plötz
        Grüße aus Berlin
        ~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
        ~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~
        1. Hallo Henryk,

          Natürlich hat sich ein Robot gefälligst an die Angaben in der robots.txt zu
          halten.
          Ich meinte, dass es nicht unbedingt eine Unfreundlichkeit darstellt, wenn der
          Besuch meiner Seiten durch einen Robot nicht erkennbar ist.

          Auf Wiederlesen
          Detlef

          --
          - Wissen ist gut
          - Können ist besser
          - aber das Beste und Interessanteste ist der Weg dahin!
          1. Moin,

            Natürlich hat sich ein Robot gefälligst an die Angaben in der robots.txt zu
            halten.
            Ich meinte, dass es nicht unbedingt eine Unfreundlichkeit darstellt, wenn der
            Besuch meiner Seiten durch einen Robot nicht erkennbar ist.

            Ah schon gut, ich hatte nicht direkt auf dein Zitat geachtet, weil ich ja ohnehin wusste was ich geschrieben habe und wie es gemeint war. Offenbar hatte ich letzteres aber nicht so erfolgreich ausdrückt.

            Gemeint war ungefähr: Wenn der Robot nett ist, dann ruft er die robots.txt ab. Wenn er nicht nett ist (d.h.: die robots.txt nicht abruft) und auch sonst von dir nicht erkannt werden will, dann hast du keine Chance.

            --
            Henryk Plötz
            Grüße aus Berlin
            ~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
            ~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~