Re!
- IP
- der zweite Eintrag kann ich nicht zuordnen, werde aus der Apache-Beschreibung nicht schlau, ist aber immer -
- angemeldeter User(wenn vorhanden, sonst -)
- Datum/Zeit-String
- "Methode/Request Protokoll"
- Server Response (Status Code)
- Dateigröße in Bytes
- Domain oder Subdomain
- "Referrerstring" (oder "-")
- "User-Agent-String" (oder "-" oder "Unfug" *g*)
- "Proxy-IP" (wenn über Proxy und die IP wird mitgesendet)
Basierend auf dem Aufbau der 1&1-Logfiles, habe ich mir einen RegExp aus einem älteren Logfile-Analyser (access.pl, nicht von mir) etwas verfeinert:
($site,$rfc931,$user,$when,$request,$status,$bytes,$domain,$from,$agent,$proxy) =
m{
^ # Stringbeginn
(\S+) # $site (Bei 1&1: IP-Adresse)
\s* # Leerzeichen
(\S+) # $rfc931. Hier steht nur: -
\s* # Leerzeichen
(\S+) # $user (Bei HTTP-Auth: Username, sonst: -)
\s* # Leerzeichen
\[([^\]]+)] # $when (Datum/Zeit-Gruppe - in eckigen Klammern)
\s* # Leerzeichen
"(.+[\\"]*[^\"]+HTTP/\d\.\d)" # $request (GET|POST|HEAD|PUT + angeforderte Ressource + HTTP-Protokoll - in Anführungszeichen)
\s* # Leerzeichen
(\S+) # $status (Serverresponse: Zahl)
\s* # Leerzeichen
(\S+) # $bytes (Dateigröße in Bytes: Zahl)
\s* # Leerzeichen
(\S+) # $domain (Domain/Subdomain - 1&1-spezifisch)
\s* # Leerzeichen
"\s*(.+[\\"]*[^\"]*)\s*" # $from (HTTP-Referrer - in Anführungszeichen)
\s* # Leerzeichen
"\s*(.+[\\"]*[^\"]*)\s*" # $agent (User-Agent - in Anführungszeichen)
\s* # Leerzeichen
"([^\"]+)" # $proxy (Proxy-IP, wenn übermittelt - 1&1-spezifisch)
\s* # Leerzeichen
$ # Stringende
}ox;
Macht sogar Requests wie: »http://www.example.org/seite "mit" Anfuehrungszeichen "weil" manche "es" so "toll" finden« (diese werden ja in der Logfile escaped: "), ferner UAs, die ebenfalls Anführungszeichen enthalten (gibt's alles, ja):
255.255.255.255 - - [03/Aug/2007:20:05:40 +0200] "GET / HTTP/1.0" 200 34978 www.atomic-eggs.com "http://www.courbis.fr" "<a href="http://www.courbis.fr">Courbis presente Voyage au centre de la HP48</a>" "-"
Eine Reise durch die Logfiles ist immer spaßig! Gibt auch schlecht parsende Suchbots (s. Request... Gerade Cazoodle ist darin Weltmeister):
111.222.111.222 - - [03/Aug/2007:00:28:01 +0200] "GET /old_news/</TITLE></HEAD> HTTP/1.0" 301 261 old.atomic-eggs.com "-" "CazoodleBot/CazoodleBot-0.1 (CazoodleBot Crawler; http://www.cazoodle.com/cazoodlebot; cazoodlebot@cazoodle.com)" "-"
Und die Geckos treiben mich noch zum Wahnsinn:
Anzahl Gecko-Browser gesamt: 93944
BonEcho: 4
Camino: 25
Firefox: 84581
Galeon: 21
IceWeasel: 254
K-Meleon: 106
Minefield: 7344
Mozilla: 413
MultiZilla: 6
Netscape: 220
SeaMonkey: 579
Thunderbird: 5
Andere Geckos: 386
Wie viele gibt es denn?
Darf's a bissi mehr sein? Ja, dann "einige" Robots, Dienste und sonstwelche »Graser«:
Anzahl Robots und Dienste: 41057
Ask Jeeves: 2107
Cazoodle: 376
Convera Crawler: 865
Exabot: 45
Favorstar: 35
Googlebot: 3813
Heritrix: 22
Houxou Crawler: 12
IA-Archiver: 825
Litefinder: 1518
MSN-Bot: 5737
Microsoft URL Control: 258
Perl: 171
Python: 7
Seekbot: 159
Speedy Spider: 651
SurveyBot: 6
VisBot: 218
VoilaBot: 14686
W3C-Validator: 10
Yahoo! Slurp: 9520
YodaoBot-Image: 16
Und zuletzt:
Anzahl Besuche bekannter Forumer mit eigenem User-Agent: 241
Cheatah: 8
Martin: 143
Struppi: 90
;)
Viele Grüße aus Frankfurt/Main,
Patrick
![](http://www.atomic-eggs.com/fuernA.jpg)
_ - jenseits vom delirium - _
[link:hatehtehpehdoppelpunktslashslashwehwehwehpunktatomicminuseggspunktcomslash]
Nichts ist unmöglich? Doch!
Heute schon gegökt?