Patrick Andrieu: Bekloppte User Agents zuordnen (RegExp)

Beitrag lesen

Hallo Ingo!

Ich habe eben durch ein versehentliches Klicken auf den Back-Button den Inhalt einer Antwort verloren, an der ich schon 20mn saß... ich kriege sie eh nicht mehr hin, ich versuche das nun kürzer zu fassen:

Mein Mini-webspace bei 1&1 hat ja leider kein PHP.

Vielleicht geht aber Perl? Frage mal Engin, was angeblich alles nicht geht ;)

Was für eine Sprache? Verstehe nichts ;)
brauchst Du auch nicht... Ist ein Basic-Dialekt für einen Compiler, der wirklich schnellen Maschinencode daraus erstellt.

Davon habe ich nun wirklich keine Ahung!

Ich habe mir übrigens Dein 100000-Zeilen Log mal vorgenommen...
Schade, dass Du die IPs so durcheinandergewürfelt hast und dadurch IP-Wechsel eines Besuchers nicht erkannt werden konnten. Wieso nur hast Du meinen Zugriffen über Arcor eine IP der Lithuanian Telecom gegeben? ;-)

Ich habe ein Skript drüber laufen lassen, der ein RegExp mit Funktion als Ersetzung hatte, etwa so:

while (<FILE>) {  
  next if m#/logs#;  
  
  $_ =~ s|^((\d{1,3})\.(\d{1,3})\.(\d{1,3})\.(\d{1,3}))|fake($2,$3,$4,$5)|e;  
  
  print OUT $_;  
  $count++;  
  last if $count == 3000;  
}

[09:24:51] 301 /daten/86.html
[09:24:51] 301 /selfspezial/daten/86.html

^^ Das kommt daher, dass ich ca. 2005 alle Visis gelöscht hatte. Dann habe ich auch die Subdomains eingeführt. Früher war der Aufruf ja:

http://www.atomic-eggs.com/selfspezial/daten/...

Also wird einmal auf selpezial.atomic-eggs.com/daten/... umgeleitet, und da sie gelöscht wurden, leite ich sie auf 410 ;). In der .htaccess kann man bei Redirect Gone keine RegExp verwenden (jedenfalls mir nicht bekannt), so habe ich einen RedirectMatch Permanent auf die 410. Mir ist bewußt, dass es so nicht ganz richtig ist, denn Suchbots sehen nur einen moved permanently und indexieren u.U. weiter unter dem selben Text. Allerdings kommen die meisten Anfragen zu den Visis vom hiesigen Archiv (meistens Kleinjungs Postings, der immer fleißig seine 101.html verlinkt hatte, aber auch die SELFHTML-Suche enthält noch einen Link zu Michael Schröpls Visitenkarten - die es auch nicht mehr gibt).

[09:24:52] 404 /favicon.ico

Ja, ich hatte mal ein Favicon auf SELFSPEZIAL, wird wohl beim Umziehen verloren gegangen sein ;)

Da schickst Du die armen User über zwei Zwischenstationen zu einer Gone-Seite, die Du mit 200 auslieferst...

s. oben...

Nett fand ich:
[Google Suchanfragen: 1009]
  121* Geburtstagskarten

Ist immer ganz oben bei den Suchbegriffen... kaum zu glauben, wie oft dieses Wort oder Kombinationen davon (»was schreibe ich auf der Geburtstagskarte«, »Geburtagskarte zum X.«...) zu der SELFSPEZIAL-Seite mit den Community-Geburtstagen führt ;)

[ausgelieferte Seiten: 23202]  [PageImpressions: 23310]
1025* /

^^ Hier werden alle Index-Seiten aller Subdomains als "/" angezeigt. Es gibt nur _eine_ access.log für alle 4 Domains und die paar Subdomains, die ich momentan verwalte. Daher ist mir das gester vorgestellte Skript für die tägliche Auswertung wichtig, da ich sehen, welche Domain der Besucher gesehen hat, wenn nur "/" steht (http://www.atomic-eggs.com/z_testdir/files/access_an.pl).

Aber Dich könnte meine Browserauswerung onteressieren:

Na klar. Hast du schon das Skript statfaker.pl daheim ausprobiert (Perl installation vorausgesetzt)? Ich verlinke hier die Auswertungen des Novembers für Browser (alle Hits), Browser (nur PageViews) und Betriebssysteme.

521* andere Robots (Anmerkung: Dein Lieblinksbot läuft bei mir nur hier unter Sonstige)

Meintest Du  »Microsoft URL Control«, der bei mir grundsätzlich 403 bekommt? ;)

9* CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)

Boh, der nervt... er kann überhaupt nicht parsen, in seinen Requests sind HTML-Tags (http://example.org/datei.html<table><td>)... echt!

7* MSRBOT (http://research.microsoft.com/research/sv/msrbot/

und viele weiteren.... soviel habe ich in statfaker.pl nicht angegeben ;) Einige werte ich schon aus, der Rest läuft unter andere UAs. ;)

Viele Grüße aus Frankfurt/Main,
Patrick

--

_ - jenseits vom delirium - _
[link:hatehtehpehdoppelpunktslashslashwehwehwehpunktatomicminuseggspunktcomslash]
Nichts ist unmöglich? Doch!
Heute schon gegökt?
0 79

Bekloppte User Agents zuordnen (RegExp)

Patrick Andrieu
  • programmiertechnik
  1. 0
    Cheatah
    1. 2

      UA-Statistiken fälschen

      Siechfred
      • perl
      1. 0
        Patrick Andrieu
        1. 1
          Siechfred
          1. 0

            Die erfolgreiche Fälschung

            Patrick Andrieu
            1. 1

              Das Modul zur erfolgreichen Fälschung?

              Siechfred
              1. 0
                Patrick Andrieu
                1. 0
                  Siechfred
              2. 0
                Siechfred
              3. 0
                Patrick Andrieu
                1. 0
                  Siechfred
                  1. 0
                    Patrick Andrieu
                    1. 0
                      Siechfred
                      1. 0
                        Patrick Andrieu
                        1. 0
                          Siechfred
                          1. 0
                            Patrick Andrieu
                            1. 0
                              Siechfred
                              1. 0
                                Patrick Andrieu
                                1. 0
                                  Patrick Andrieu
                                  1. 0
                                    Siechfred
                                    1. 0
                                      Patrick Andrieu
                                      1. 0
                                        Siechfred
                                        1. 0
                                          Patrick Andrieu
                                          1. 0
                                            Patrick Andrieu
                                          2. 0
                                            Siechfred
                                2. 0
                                  Siechfred
            2. 0

              Die erfolgreichen Statmaker- und -fälscher-Skripts für 1&1-User!

              Patrick Andrieu
              1. 0
                Patrick Andrieu
                1. 0
                  Struppi
                  1. 0
                    Patrick Andrieu
    2. 0
      Patrick Andrieu
      1. 0
        Cheatah
        1. 0
          Patrick Andrieu
  2. 0
    Don P
    1. 0
      Don P
    2. 0
      Patrick Andrieu
      1. 0
        Don P
        1. 0
          Patrick Andrieu
          1. 0
            Don P
            1. 0
              Patrick Andrieu
      2. 0

        Logline splitter (RegExp)

        Patrick Andrieu
  3. 2
    Struppi
    1. 0
      Patrick Andrieu
      1. 0
        Patrick Andrieu
  4. 0
    Der Martin
    1. 0
      Alexander (HH)
    2. 0
      Patrick Andrieu
      1. 0
        Der Martin
        1. 0
          Cheatah
          1. 0
            Patrick Andrieu
            1. 0
              Cheatah
        2. 0
          Patrick Andrieu
          1. 0
            Der Martin
            1. 0

              RegExp'sch ist gar nicht so schwer :)

              Siechfred
              • menschelei
    3. 0
      Patrick Andrieu
      1. 0
        Der Martin
        1. 0
          Patrick Andrieu
          1. 0
            Patrick Andrieu
            1. 0
              Struppi
      2. 0
        Ingo Turski
        1. 0
          Patrick Andrieu
          1. 0
            Ingo Turski
            1. 0
              Patrick Andrieu
              1. 0
                Ingo Turski
                1. 0
                  Patrick Andrieu
                  1. 0
                    Engin
                  2. 0
                    Engin
                    1. 0
                      Patrick Andrieu
                      1. 0
                        Engin
                        1. 0
                          Patrick Andrieu
                          1. 0
                            Engin
                            1. 0
                              Patrick Andrieu
                              1. 0
                                Engin
                                1. 0
                                  Patrick Andrieu
                                  1. 0
                                    Engin
                  3. 0
                    Ingo Turski
                    1. 0
                      Patrick Andrieu
        2. 0
          Patrick Andrieu