Ingo Turski: Bekloppte User Agents zuordnen (RegExp)

Beitrag lesen

Hi,

Huch... Jahre mit 53 Wochen? Dann sind Woche 1 und 53 nur Bruchstücke ;)

sowas kann man berechnen und wenn ich das richtig programmiert habe, fängt die 1. KW 2012 bis 2014 sogar bereits im Vorjahr an und 2015 gibt's dann wieder eine 53. Woche.

Meinst Du die alten old.atomic-eggs.com-Statistiken?

ja klar. Ich hatte mir über die URL hin und wieder die IPs für einen sehr großen Zeitraum anzeigen lassen und mir dann die IPs zu den entsprechenden DNS-Angaben sortiert ausgeben lassen. Mein Mini-webspace bei 1&1 hat ja leider kein PHP.

Was für eine Sprache? Verstehe nichts ;)

brauchst Du auch nicht... Ist ein Basic-Dialekt für einen Compiler, der wirklich schnellen Maschinencode daraus erstellt.

Ich habe mir übrigens Dein 100000-Zeilen Log mal vorgenommen...
Schade, dass Du die IPs so durcheinandergewürfelt hast und dadurch IP-Wechsel eines Besuchers nicht erkannt werden konnten. Wieso nur hast Du meinen Zugriffen über Arcor eine IP der Lithuanian Telecom gegeben? ;-)

Mir fielen die vielen 301 und 404 auf. Z.B. hier:
 357:*Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
      Ref: http://forum.de.selfhtml.org/archiv/2001/5/t23531/
[09:24:51] 301 /daten/86.html
[09:24:51] 301 /selfspezial/daten/86.html
[09:24:52]     /cgi-bin/counter.cgi?seite=ssp_410&ref=http://forum.de.selfhtml.org/archiv/2001/5/t23531/&auf=1152x864&win=0&farb=32
[09:24:52] 404 /favicon.ico
[09:24:52]     /410.html

Da schickst Du die armen User über zwei Zwischenstationen zu einer Gone-Seite, die Du mit 200 auslieferst...

Nett fand ich:
[Google Suchanfragen: 1009]
  121* Geburtstagskarten
   30* cd labels
   28* schriftarten
   23* smart roadster
   21* autorun.inf
   14* teletubbis
   11* Muschelzubereitung
   11* gästebuch
   10* gästebuch downloaden
   10* cd hüllen
   10* autorun html
    8* gemeinheiten
...

Und hier:
[ausgelieferte Seiten: 23202]  [PageImpressions: 23310]
 1025* /
  436* /410.html
  369* /2/0209dodo.shtml
  336* /old_news/autorun.html
  334* /skarten.html
  329* /cgi-bin/guest/guest.pl
  315* /guests/advguest.cgi?view
...
ist schon etwas traurig, dass diese Gone-Seite am zweithäufigsten angefordert wurde.

Interessant vielleicht auch die
[Top20 Einstiegsseiten von: 2151]
  512* /
  259* /smartie5.jpg
  246* /selfspezial/atomicegg.gif
  229* /cgi-bin/guest/guest.pl
  194* /skarten.html
  168* /old_news/autorun.html
  158* /old_news/labels.html
  130* /guests/advguest.cgi?view
...

Aber Dich könnte meine Browserauswerung onteressieren:
[Browser: 7085]
 34,6% MSIE 6
 25,4% Geckos
 15,7% MSIE 5.x
 11,4% MSIE 7
  2,8% Opera
 10,1% andere erkannte Browser

2317* MSIE 6
 1418* Firefox/Iceweasel (1234* Firefox 2)
  766* MSIE 7
  759* MSIE 5.5
  558* MSIE 4
  290* MSIE 5
  187* Opera (66* Opera 9)
  184* Mozilla
  100* MSIE Mac
   55* Safari
   22* Konqueror
   10* SeaMonkey
    8* Netscape 4
    5* Netscape 7
    5* MSIE ?
    4* Galeon
    1* Netscape 8
    1* Lynx
  223* unbekannt (-> andere Kennungen)
  163* keine Browserkennung

14* OfflineReader (5* MSIECrawler)
  431* IE Favorit gesetzt (-> *'Browser' in Filteransicht)
    3* (W3C) Validator

[Robots: 3435]
 2163* Inktomi's Web Robot (Yahoo! ...)
  582* MSN Robot
   92* Googlebot
   70* alexa Robot
    4* Seekport.de
    3* Xenu's Link Sleuth (broken links)
  521* andere Robots (Anmerkung: Dein Lieblinksbot läuft bei mir nur hier unter Sonstige)

[andere Kennungen: 223]
   32* Mozilla/4.0
   16* bot/1.0 (bot; http://; bot@bot.bot)
   13* voyager/1.0
   13* heeii/Nuts Java/1.5.0_10
   11* Mozilla/5.0 (compatible; jobs.de-Robot +http://www.jobs.de)
   11* Mozilla/4.0 (compatible;)
   10* Java/1.5.0_11
    9* CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)
    7* MSRBOT (http://research.microsoft.com/research/sv/msrbot/
    7* Mozilla/5.0 (Twiceler-0.9 http://www.cuill.com/twiceler/robot.html)
    6* Sunrise/0.42j (Windows XP)
    6* Mozilla/3.0 (compatible; WebCapture 2.0; Auto; Windows)
    6* chudo
    4* VisBot/2.0 (Visvo.com Crawler; http://www.visvo.com/bot.html; bot@visvo.com)
    4* libwww-perl/5.808
    4* libwww-perl/5.803
    3* shelob v1.0
    3* PHP/3.0.18
    3* Nokia6682/2.0 (3.01.1) SymbianOS/8.0 Series60/2.6 Profile/MIDP-2.0 configuration/CLDC-1.1 UP.Link/6.3.0.0.0 (compatible;YahooSeeker/M1A1-R2D2; http://help.yahoo.com/help/us/ysearch/crawling/crawling-01.html)
    3* Html Link Validator (www.lithopssoft.com)
    3* holmes/3.11 (OnetSzukaj/5.0; +http://szukaj.onet.pl)
    2* Mozilla/5.0 (compatible; Gigamega.bot/1.0; +http://www.gigamega.net/bot.html)
    2* MJ12bot/v1.2.0 (http://majestic12.co.uk/bot.php?+)
    2* libwww-perl/5.805
    2* libwww-perl/5.79
    2* libwww-perl/5.76
    2* HouxouCrawler/Nutch-0.8.2-dev (houxou.com's nutch-based crawler which serves special interest on-line communities; http://www.houxou.com/crawler; crawler at houxou dot com)
    2* ConveraCrawler/0.9e (+http://www.authoritativeweb.com/crawl)
    1* yacybot (ppc Mac OS X 10.4.10; java 1.4.2_12; Europe/de) http://yacy.net/bot.html
    1* yacybot (amd64 Linux 2.6.18; java 1.5.0_10; GMT/en) http://yacy.net/bot.html
    1* WebCorp/1.0
    1* User-Agent
    1* Trailfire-bot/0.7.1 (Nutch; http://lucene.apache.org/nutch/bot.html; nutch-agent@lucene.apache.org)
    1* T-Online Browser
    1* SurveyBot/2.3 (Whois Source)
    1* Snoopy v1.2
    1* SiteSucker/2.1
    1* Python-urllib/1.10
    1* Pete-Spider Light/1.0
    1* PCbot/3.0
    1* panscient.com
    1* owsBot/0.2 (owsBot; www.oneworldstreet.com; owsBot)
    1* Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.8.1.4)
    1* Mozilla/5.0
    1* Mozilla/4.0 (compatible; Netcraft Web Server Survey)
    1* Mozilla/3.0 (Compatible;Viking/1.91-399D) (Viking/1.91-399D) (prefetch)
    1* Mozilla/3.0 (compatible; Indy Library)
    1* MOMspider/2.00 MS Web Services Client
    1* MoJoBot/0.1 libwww-perl/5.805
    1* MJ12bot/v1.0.8 (http://majestic12.co.uk/bot.php?+)
    1* Missigua Locator 1.9
    1* Mein Browser und mein Betriebssystem
    1* lwp-trivial/1.38
    1* libwww-perl/5.65
    1* libcurl-agent/1.0
    1* Java/1.5.0_08
    1* Java/1.5.0_06
    1* Internet Browser
    1* hq0nAjpp00vvrqnbsvgbgwngpytjghlnl
    1* great-plains-web-spider/flatlandbot (Flatland Industries Web Spider; http://www.flatlandindustries.com/flatlandbot.php; jason@flatlandindustries.com)
    1* favorstarbot/1.0 (+http://favorstar.com/bot.html)
    1* curl/7.11.1 (i386-redhat-linux-gnu) libcurl/7.11.1 OpenSSL/0.9.7a ipv6 zlib/1.2.1.1
    1* CFNetwork/129.21

freundliche Grüße
Ingo

0 79

Bekloppte User Agents zuordnen (RegExp)

Patrick Andrieu
  • programmiertechnik
  1. 0
    Cheatah
    1. 2

      UA-Statistiken fälschen

      Siechfred
      • perl
      1. 0
        Patrick Andrieu
        1. 1
          Siechfred
          1. 0

            Die erfolgreiche Fälschung

            Patrick Andrieu
            1. 1

              Das Modul zur erfolgreichen Fälschung?

              Siechfred
              1. 0
                Patrick Andrieu
                1. 0
                  Siechfred
              2. 0
                Siechfred
              3. 0
                Patrick Andrieu
                1. 0
                  Siechfred
                  1. 0
                    Patrick Andrieu
                    1. 0
                      Siechfred
                      1. 0
                        Patrick Andrieu
                        1. 0
                          Siechfred
                          1. 0
                            Patrick Andrieu
                            1. 0
                              Siechfred
                              1. 0
                                Patrick Andrieu
                                1. 0
                                  Patrick Andrieu
                                  1. 0
                                    Siechfred
                                    1. 0
                                      Patrick Andrieu
                                      1. 0
                                        Siechfred
                                        1. 0
                                          Patrick Andrieu
                                          1. 0
                                            Patrick Andrieu
                                          2. 0
                                            Siechfred
                                2. 0
                                  Siechfred
            2. 0

              Die erfolgreichen Statmaker- und -fälscher-Skripts für 1&1-User!

              Patrick Andrieu
              1. 0
                Patrick Andrieu
                1. 0
                  Struppi
                  1. 0
                    Patrick Andrieu
    2. 0
      Patrick Andrieu
      1. 0
        Cheatah
        1. 0
          Patrick Andrieu
  2. 0
    Don P
    1. 0
      Don P
    2. 0
      Patrick Andrieu
      1. 0
        Don P
        1. 0
          Patrick Andrieu
          1. 0
            Don P
            1. 0
              Patrick Andrieu
      2. 0

        Logline splitter (RegExp)

        Patrick Andrieu
  3. 2
    Struppi
    1. 0
      Patrick Andrieu
      1. 0
        Patrick Andrieu
  4. 0
    Der Martin
    1. 0
      Alexander (HH)
    2. 0
      Patrick Andrieu
      1. 0
        Der Martin
        1. 0
          Cheatah
          1. 0
            Patrick Andrieu
            1. 0
              Cheatah
        2. 0
          Patrick Andrieu
          1. 0
            Der Martin
            1. 0

              RegExp'sch ist gar nicht so schwer :)

              Siechfred
              • menschelei
    3. 0
      Patrick Andrieu
      1. 0
        Der Martin
        1. 0
          Patrick Andrieu
          1. 0
            Patrick Andrieu
            1. 0
              Struppi
      2. 0
        Ingo Turski
        1. 0
          Patrick Andrieu
          1. 0
            Ingo Turski
            1. 0
              Patrick Andrieu
              1. 0
                Ingo Turski
                1. 0
                  Patrick Andrieu
                  1. 0
                    Engin
                  2. 0
                    Engin
                    1. 0
                      Patrick Andrieu
                      1. 0
                        Engin
                        1. 0
                          Patrick Andrieu
                          1. 0
                            Engin
                            1. 0
                              Patrick Andrieu
                              1. 0
                                Engin
                                1. 0
                                  Patrick Andrieu
                                  1. 0
                                    Engin
                  3. 0
                    Ingo Turski
                    1. 0
                      Patrick Andrieu
        2. 0
          Patrick Andrieu