Gerhard: Robots erkennen

Hallo,

wie kann ich 100%-ig erkennen ob ein Robot, Spider od. Crawler auf meiner Seite ist?

lg
Gerhard

  1. Hallo Gerhard,

    wie kann ich 100%-ig erkennen ob ein Robot, Spider od. Crawler auf meiner Seite ist?

    garnicht. Für was brauchst du das?

    Grüße aus Nürnberg
    Tobias

    1. Hi,

      Für was brauchst du das?

      Um den Robots keine Session-Parameter bei den Links mitzugeben.

      Aber es muss doch irgendwie möglich sein, da man ja auch Browser erkennen kann, oder?

      lg
      Gerhard

      1. Hi,

        Aber es muss doch irgendwie möglich sein, da man ja auch Browser erkennen kann, oder?

        Das kann man? Oh, ist mir neu.

        Dann ist es allerdings einfach: Alles was kein Browser, ist ein Robot. ;-) *SCNR*

        Ich mache es so: Wer auf die robots.txt zugreift, ist ein (guter) Robot. Ich würde davon allerdings nichts Relevantes abhängig machen ...

        Gruß, Cybaer

        --
        Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
      2. Moin!

        Aber es muss doch irgendwie möglich sein, da man ja auch Browser erkennen kann, oder?

        Nein, man kann auch keine Browser erkennen.

        Du kannst natürlich den UserAgent-String auslesen, der in den HTTP-Headern übermittelt wird, aber Du kannst dich nicht drauf verlassen, daß dieser auch korrekt ist. Das kann man nämlich recht problemlos manipulieren.
        Aber wenn Du unbedingt willst, dann ist es natürlich machbar... Vermutlich werden auch die meisten Angaben stimmen. Ich schätze z.B. das sich der Googlebot immer auch brav als dieser zu erkennen gibt. Aber Du kannst dich halt nie 100% darauf verlassen.
        Könnte auch sein, daß ich gerade mal deine Site besuche. Mein Browser sendet auch öfter mal Googlebot als Erkennung. Ist teilweise schon ganz witzig, was man da so alles für "optmierte" Versionen einer Site findet ;o)

        Im Übrigen solltest Du darauf verzichten, irgendwelchen Bots andere Seiten vorzuwerfen als Browsern.
        Das kann ganz schnell dazu führen, daß dich keine Suchmaschine mehr listet.

        Gruß, rob

        1. Hallo Rob,

          Im Übrigen solltest Du darauf verzichten, irgendwelchen Bots andere Seiten vorzuwerfen als Browsern.

          Ich will den Robots keine andere Seite anzeigen, sondern die Session-Parameter in der URL nicht anzeigen. Diese benötige ich um zB User die eingeleoggt sind und keine Cookies zulassen, so wie auch die Robots, zu identifizieren.

          Für Suchmaschinen ist es nicht sehr ideal, wenn andaeuernd komische Session-Parameter in der URL stehen.

          lg
          Gerhard

          1. Hi,

            Für Suchmaschinen ist es nicht sehr ideal, wenn andaeuernd komische Session-Parameter in der URL stehen.

            Und für die Bewertung deiner Website ist es nicht ideal, wenn Du so zwanghaft neugierig bist und dies noch nicht mal verheimlichen kannst. So what?

            *SCNR* =;->

            Gruß, Cybaer

            --
            Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
            1. Hallo,

              Und für die Bewertung deiner Website ist es nicht ideal, wenn Du so zwanghaft neugierig bist und dies noch nicht mal verheimlichen kannst. So what?

              Also in diesem Forum sind auch immer mehr Leute etwas besch... drauf.

              Es sollte echt mal einen Admin geben, der soclhe Leute raussucht, die einfach nur posten wollen und sich gar nicht wirklich auskennen.

              Vielleicht hätte auch mal jemand fragen können welche Script- bzw. Serversprache Gerhard verwendet.

              Es wäre sicherlich mit anderen Methoden möglich.

              MFG
              ein Besserwisser

              1. Hallo Besserwisser,

                Also in diesem Forum sind auch immer mehr Leute etwas besch... drauf.

                ja, denkst du an jemand bestimmten?

                Es sollte echt mal einen Admin geben, der soclhe Leute raussucht, die einfach nur posten wollen und sich gar nicht wirklich auskennen.

                Gibt es, sogar mehrere. Und die meisten Forumsuser sind mit dem, was die Devs im Hinblick auf ihre Aufsichtspflicht hier tun, recht zufrieden.

                Vielleicht hätte auch mal jemand fragen können welche Script- bzw. Serversprache Gerhard verwendet.

                Das spielt für die ursprüngliche Fragestellung keine Rolle. Es gibt keine Möglichkeit, den User Agent zuverlässig festzustellen. Serverseitig schon gar nicht, und clientseitig auch nur bedingt.
                Und dann noch eine Schlussbemerkung: Die Fragestellung hat absolut nichts mit dem gewählten Themenbereich "HTML" zu tun.

                So long,

                Martin

              2. Hi,

                Also in diesem Forum sind auch immer mehr Leute etwas besch... drauf.

                Ja, aber man sollte einem doch nicht gleich so vorwerfen, wenn er das falsche Themengebiet wählt, oder? =;-)

                Vielleicht hätte auch mal jemand fragen können welche Script- bzw. Serversprache Gerhard verwendet.

                Hmm, spielt es denn eine Rolle ...

                Es wäre sicherlich mit anderen Methoden möglich.

                ... beim Ersetzen einer nicht-idealen Umsetzung durch eine andere nicht-ideale Umsetzung, mit welcher Sprache man das macht?

                Sicher funktioniert es mit keiner, unsicher mit jeder.

                Gruß, Cybaer

                --
                Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!
              3. Hallo Besserwisser,

                Es sollte echt mal einen Admin geben, der soclhe Leute raussucht, die einfach nur posten wollen und sich gar nicht wirklich auskennen.

                Und dann?

                Es wäre sicherlich mit anderen Methoden möglich.

                Nein. Eine gute Suchmaschine muss sich regelmäßig tarnen, um Cloaking zu erkennen.

                Grüße
                 Roland

                --
                Drucklayouts mit CSS gestalten
                Benutzerstylesheet für das SELFHTML-Forum
          2. Hi,

            Ich will den Robots keine andere Seite anzeigen, sondern die Session-Parameter in der URL nicht anzeigen.

            100%ig geht das natürlich nicht - vor allem nicht für alle Robots - aber Du kannst zum einen die UserAgent-Kennungen berücksichtigen und zum anderen die IP-Bereiche. Über letztere kannst Du relativ sicher einen Robot erkennen, was natürlich die Kenntnis der verwendeten Bereiche erfordert...

            freundliche Grüße
            Ingo

  2. Hallo Gerhard,

    wie kann ich 100%-ig erkennen ob ein Robot, Spider od. Crawler auf meiner Seite ist?

    Du kannst, sofern vorhanden, die Client-Identifikation auswerten.
    Alles was du hier http://www.robotstxt.org/wc/active.html findest ist mit an Sicherheit grenzender Wahrscheinlichkeit ein Robot. Und 100%ig gibts eh nirgends.

    Grüße,

    Jochen

    --
    Heute schon gescribbelt?
    Scribbleboard