Montgomery C Burns: User Agent von Robotern/Spidern

Hi!

Ich hab zwar auf google danach gesucht, jedoch waren die ergebnisse nicht unbedingt aktuell, und waren in tabellen drinnen (d.h. ich müsste sie da irgendwie "extrahieren",...)

hat jemmand von euch eine aktuelle liste von Robotern als SQL-Dump/CSV-Datei/... vorliegen und wäre so nett mir diese zu senden (bzw. hier im forum rein zu kopieren)?

thx!

--
Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
  1. Hallo,

    und waren in tabellen drinnen (d.h. ich müsste sie da irgendwie "extrahieren",...)

    Mittels Phase 5:

    • Seitenquelltext mit Phase 5 aufrufen
    • Gewünschte Passage markieren
    • STRG +  DEL/ENTF
    • Fertig

    Mit freundlichen Grüßen,
    André

    1. puts "Hallo " + gets.chomp + "."

      ?> Zeromancer
      => Hallo Zeromancer.

      Mittels Phase 5:
      [...]

      Mittels PHP:

      strip_tags(); / explode();

      Einen schönen Dienstag noch.

      Gruß, Ashura

      --
      Selfcode: sh:( fo:) ch:? rl:( br:^ n4:& ie:{ mo:) va:) de:> zu:) fl:( ss:| ls:[ js:|
      30 Days to becoming an Opera8 Lover -- Day 20: search.ini
      Meine Browser: Opera 8.01 | Firefox 1.0.4 | Lynx 2.8.3 | Netscape 4.7 | IE 6.0
      [Deshalb frei! - Argumente pro freie Software]
  2. Hi,

    Ich hab zwar auf google danach gesucht, jedoch waren die ergebnisse nicht unbedingt aktuell, und waren in tabellen drinnen (d.h. ich müsste sie da irgendwie "extrahieren",...)

    Es wäre viel einfacher und sinnvoller, nicht die kompletten UA-Strings abzufragen, sondern nur bestimmte Teile hieraus zu berücksichtigen. Das reduziert den Aufwand und vermeidet, daß bei kleineren Änderungen der Strings die Robots weiterhin erkannt werden.
    Je nach Einsatzzweck wäre natürlich auch noch die IP zu berücksichtigen.

    freundliche Grüße
    Ingo

    1. hi,

      du meintest:

      Das reduziert den Aufwand und vermeidet, daß bei kleineren Änderungen der Strings die Robots weiterhin erkannt werden.

      ... vermeidet, dass ... _nicht_ mehr erkannt werden.

      gruß,
      wahsaga

      --
      /voodoo.css:
      #GeorgeWBush { position:absolute; bottom:-6ft; }
      1. ja hatte ich anfangs auch vor, aber dann müsste ich auf eine Menge sachen überprüfen - in php

        so kann ich das überprüfen mysql überlassen (ist ja schneller als php)

        btw, wärst du vllt. so nett eine liste zu posten worauf ich die user-agents überprüfen sollte?

        und das mit den IPs glaub ich wäre zuviel, ich will ja nichts verstecken sondern nur die roboter in einer eigenen tabelle haben, die werden schon nicht jede seite mit völlig fremden user-agents besuchen - oder?

        thx!

        --
        Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
        1. Tach auch,

          und das mit den IPs glaub ich wäre zuviel, ich will ja nichts verstecken sondern nur die roboter in einer eigenen tabelle haben, die werden schon nicht jede seite mit völlig fremden user-agents besuchen - oder?

          Irgendwo habe ich neulich gelesen dass die sich teilweise auch eines ganz normalen user agents bedienen, um die SEOs zu finden die fuer robots optimierte Seite ausgeben sowie sie einen identifizieren. Da kommt dann der Googlebot halt nicht als Googlebot sondern mit Mozilla XYZ (weiss nicht mehr welche er haben sollte).

          Keine Ahnung ob das gegen irgendeine RFC verstoesst, solange sie die robots.txt beachten habe ich kein Problem damit.

          --
          Gruss,
          Armin
          1. und das mit den IPs glaub ich wäre zuviel, ich will ja nichts verstecken sondern nur die roboter in einer eigenen tabelle haben, die werden schon nicht jede seite mit völlig fremden user-agents besuchen - oder?

            Irgendwo habe ich neulich gelesen dass die sich teilweise auch eines ganz normalen user agents bedienen, um die SEOs zu finden die fuer robots optimierte Seite ausgeben sowie sie einen identifizieren. Da kommt dann der Googlebot halt nicht als Googlebot sondern mit Mozilla XYZ (weiss nicht mehr welche er haben sollte).

            ja, sollen sie ruhig so lange sie nicht alle seiten in wenigen minuten aufrufen (und so massiv den log verpfuschen) - und das tun sie ja nicht da es ja auffälig wäre,...

            --
            Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
        2. Hi,

          so kann ich das überprüfen mysql überlassen (ist ja schneller als php)

          nein - und wie bitteschön sollte eine Datenbank selbständig etwas überprüfen können?
          Ein paar Vergleiche relevanter Zeichenketten sind allemale schneller als die Abfrage einer umfangreichen Datenbank.

          btw, wärst du vllt. so nett eine liste zu posten worauf ich die user-agents überprüfen sollte?

          Nur mal die häufigsten:
          Googlebot/...
          Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
          Googlebot-Image/...
          Mediapartners-Google/...
          FAST-WebCrawler/...
          msnbot/...
          ia_archiver...
          psbot/...
          Xenu Link Sleuth...
          Xenu's Link Sleuth...
          Scooter...
          AltaVista...
          AV Fetch/...
          ...Mercator...
          ....av.com...
          ...Slurp...
          ...inktomi...
          Mozilla/4.0 (compatible; grub-client-...
          ...http://grub.org...
          ...looksmart.net...
          Seekbot/...
          ...Mozilla/3.01 (compatible;)

          und das mit den IPs glaub ich wäre zuviel, ich will ja nichts verstecken sondern nur die roboter in einer eigenen tabelle haben, die werden schon nicht jede seite mit völlig fremden user-agents besuchen - oder?

          Zumindest Google kommt sehr gern mal inkognito als Mozilla. ;-)

          freundliche Grüße
          Ingo

          1. so kann ich das überprüfen mysql überlassen (ist ja schneller als php)
            nein - und wie bitteschön sollte eine Datenbank selbständig etwas überprüfen können?
            Ein paar Vergleiche relevanter Zeichenketten sind allemale schneller als die Abfrage einer umfangreichen Datenbank.

            naja mit WHERE einfach den ganzen user-agent überprüfen, und so umfangreich wäre die db ja gar nicht, lediglich 20/30 Zeilen

            btw, wärst du vllt. so nett eine liste zu posten worauf ich die user-agents überprüfen sollte?
            Nur mal die häufigsten:
            Googlebot/...
            Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
            Googlebot-Image/...
            Mediapartners-Google/...
            FAST-WebCrawler/...
            msnbot/...
            ia_archiver...
            psbot/...
            Xenu Link Sleuth...
            Xenu's Link Sleuth...
            Scooter...
            AltaVista...
            AV Fetch/...
            ...Mercator...
            ....av.com...
            ...Slurp...
            ...inktomi...
            Mozilla/4.0 (compatible; grub-client-...
            ...http://grub.org...
            ...looksmart.net...
            Seekbot/...
            ...Mozilla/3.01 (compatible;)

            thx für die liste

            hmm... ich glaub da könnte man einiges zusammenfassen, und zwar zunächst mal nach "bot" suchen danach die einzelnen bots der dienste selbst auch nochmal zb. "google", "yahoo", "msn" und dann der rest

            oder gibt es einen grund wieso ich die einzeln überprüfen sollte?

            und das mit den IPs glaub ich wäre zuviel, ich will ja nichts verstecken sondern nur die roboter in einer eigenen tabelle haben, die werden schon nicht jede seite mit völlig fremden user-agents besuchen - oder?
            Zumindest Google kommt sehr gern mal inkognito als Mozilla. ;-)

            jaja, google nimmts gleich persönlich wenn man den bots "leicht verständliches und semantisch korrektes html" liefert *g*

            --
            Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
            1. Hi,

              naja mit WHERE einfach den ganzen user-agent überprüfen, und so umfangreich wäre die db ja gar nicht, lediglich 20/30 Zeilen

              weitaus mehr, wenn Du es gründlich machen willst.

              thx für die liste

              das sind wie gesagt nur die häufigsten Bots - die ich in meiner Auswertung auch namentlich angebe.

              hmm... ich glaub da könnte man einiges zusammenfassen, und zwar zunächst mal nach "bot" suchen

              nein. "bot" könnte auch in diversen anderen Kennungen vorkommen. Du solltest sie schon etwas genauer spezifizieren.

              freundliche Grüße
              Ingo

              1. nein. "bot" könnte auch in diversen anderen Kennungen vorkommen. Du solltest sie schon etwas genauer spezifizieren.

                aber sonst wäre es ok die bots zu "veralgemeinern"?

                thx!

                --
                Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
            2. Tach auch,

              Xenu Link Sleuth...
              Xenu's Link Sleuth...

              Den wuerde ich allerdings nicht notwendigerweise als Bot bezeichnen, eher als Link checker: http://home.snafu.de/tilman/xenulink.html

              Statistiken verfaelschen tut er allerdings, insofern hat er einen Platz in der Liste.

              --
              Gruss,
              Armin
              1. naja ich hab ja den w3c validator auch in die liste gepackt - insofern,...

                --
                Auch ein Charmed fan? Zitatsammlung auf Deutsch/Englisch
              2. Hi,

                Statistiken verfaelschen tut er allerdings, insofern hat er einen Platz in der Liste.

                genau wie grub...
                Und wie gesagt sind das nur die (bei mir) am häufigsten auftauchenden Kennungen. Darüber hinaus prüfe ich natürlich noch zig weitere Bots und andere Klienten wie auch OfflineReader und Validatoren. Hin und wieder schaue ich dann auch in meinen Auswertungen, welche Kennungen hinzugekommen sind.

                freundliche Grüße
                Ingo