Michael Schröpl: Spider auf Platz3, was soll ich tun?

Beitrag lesen

Hi Mathias,

Ich hatte auch schon mal ein Problem mit einem
fehlprogrammierten Spider, der pro Besuch bis
zu einem Gigabyte Traffic erzeugte.

davon war aber in der ursprünglichen Fragestellung nichts erwähnt.
Dort ging es nur darum, daß ein einzelner Client ungewöhnlich oft auftritt. Und das kann einfach bedeuten, daß die Erwartungshaltung des Fragestellers überprüft werden sollte. Beispielsweise kommt es darauf an, was unter "ein Useragent" verstanden werden soll: Der M$IE insgesamt? Eine bestimmte Version? Eine bestimmte Sub-Version? Eine Sub-Version einer bestimmten Plattform? Also "Netscape 4" oder "Netscape 4.61 für OS/2 Warp 3"?

Auf meiner Homepage habe ich beispielsweise mehrere verschiedene Bereiche mit unterschiedlichen Inhalten und unterschiedlicher Besucher-Struktur.

Meine mod_gzip-Seiten sind relativ wenig an Masse (etwa 20 HTML-Dateien), haben aber ordentlich viele Besucher. Dort sehe ich knapp 50% M$IE, etwa 25% Mozilla, knapp 10% Opera, etwa 5% Netscape4 und 10-15% "Maschinen" (Robots, W3C-Validator etc.). Das erscheint mir für eine vielbesuchte Technologie-Seite diese kleinen Umfangs auch durchaus normal.

Mein Archiv an pbm-Seiten ist allerdings um ein Vielfaches größer (weit über 1000 HTML-Seiten) und hat dabei nur etwas das Doppelte an Traffic, weil nur ein kleiner Teil dieser Seiten aktuell ist. Diese Seiten werden von "Abonnenten" regelmäßig besucht, der Rest ist eher Suchmaschinen-Futter.
Konsequenterweise sind diese "Maschinen" der Hauptbenutzer dieser Seiten mit zusammen etwa 50% "Marktanteil" - dort bekommen sie nämlich einiges geboten. Dahinter folgt mit 45% der M$IE, und alle übrigen Browser zusammen machen die restlichen 5% aus.
Die Besucher dieser Seiten sind eher weniger technisch interessiert und haben folglich fast alle Windows und dessen Standard-Browser im Einsatz.

Und beides sind Seiten derselben Domain!
Allerdings trenne ich mein access_log mit Hilfe eines Perl-Skripts in die verschiedenen thematischen Bereiche und werte die Zugriffe separat aus. Den unterschiedlichen "Marktanteil" von M$IE und Mozilla in beiden fällen zu beobachten, war mir den einen Abend für das Filter-Skript wert ...

Fazit: Glaube nur der Statistik, deren Berechnungskriterien Du zumindest verstanden zu haben glaubst. ;-)

Viele Grüße
      Michael