Sven: Webserverstatistikauswertung - besseres als webalizer gesucht

Beitrag lesen

Moin Robert,

ach so. Das heißt - was "bist" du jetzt? Also was ist dein Beruf?
Ich habe jetzt (frisch) den Bildungsgang zum MaTA abgeschlossen, d.h. ich bin offiziell "Staatlich geprüfter Mathematisch Technischer Assistent". Die Ausbildung ist vom Umfang der Inhalte her im V[...]riebes schätzt den MaTA vom Grad der Ausbildung her sogar über dem Fachinformatiker ein.

hm - aja. Also bist du so etwa ... 30 Jahre alt?

Nö, da bin ich schon eher für http://www.anybrowser.org/.
jo, meinte ich ja. Nur habe ich ein Mozillalogo gesucht, und nix gefunden (nichts richtiges), sodass ich einfach mal das erstbeste, was google auf "Mozilla logo" ausspuckt, hier als [image] verlinkt habe ;-)
Das mit dem image "Tag" muss ich mir merken.

Mehr oder weniger Tag. eigentlich eher Forensystem - CK's Classic-Forum-Syntax.

<LINK>

[iframe:IFRAME]

da gibt's afaik noch einen mehr, schau dazu mal in die Signatur von CK (momentan "broken", da seine homepage irgendein problem hat oder sowas)

Ansonsten ist Mozilla neben Opera auch mein Favorit, <Best viewed with any browser> passt natürlich hervorragend zu meiner Gesamteinstellung (Design=CSS, klar, und dass möglichst für alle/viele Zielbrowser gerecht).
Glücklicherweise gibt es ja jetzt (seit 1998) gewisse Webstandards, die Homepage-"Bastlern" als auch Surfern das Leben einfacher machen (sollen).

genau. War aber bereits vor meiner Zeit, 1998.

Naja, dieser Freiherr ist so frei, harmlose Gestalten z.B. wegen eines mangelhaften Web-Impressum mit horrenden Summen abzumahnen.
Ach so, klar. *überleg* - aber nur bei Konflikten mit Freiherren/harmlosen Gestalten, oder? Also nicht nach der Devise "Hey, du hast kein Impressum, ich zeig' dich an"!?
Der Typ ist seines Zeichens Anwalt und diese Zunft hat sich weniger auf Privatpersonen als eher auf Firmen und Selbstständige spezialisiert, weil da mehr zu holen ist. Aber ist gibt mittlerweile (rechtlich) verbindliche Richtlinien, wie ein Impressum auszusehen hat (privat oder geschäftlich), die die ganze Sache erheblich vereinfachen.

hm - das ändert nichts an dieser allgemein vorherrschende Impressums-Unwissenheit.

Datenschleimspuren ist ein Begriff vom CCC und bezeichnet die Daten, die man im Internet wie eine Schleimspur hinter sich herzieht.
Also "Signaturen"!? ;o)
Unter anderem, aber auch Cookies, die von eingebetteter Werbung ausgelesen werden, Referer, ...

Cookies lassen sich deaktivieren, das "Referer-Verraten" des Browsers auch. Bei Mozilla afaik zumindest.

Ich finde Accesslogs in so fern sinnvoll, dass man damit
  a) Eine Statistik der Verwendeten Browser erstellen kann
Wozu?
z.B. um zu sehen, was für Leute meine Seite besuchen. Wenn z.B. der Mozilla-Anteil im Vergleich zu "normalen öffentlich bekannten Statistiken" (statisches bundesamt...) sehr hoch ausfällt, würde ich daraus schließen, dass viele nicht-DAU's meine Seite besuchen - hingegen bei fiktionalen 98% IE ich am Besten gleich ein gesamtes Extracss (Conditional Comments) für den IE mache ;)
Dafür reicht die simple Speicherung der Browserkennung, die Apache-Standardeinstellung geht aber weit darüber hinaus.

Es gibt (apache-)Standartpattern für Logfiles. Z.B. combined. Das ist die einzige, wo der http-user-agent gespeichert wird, und die mein logfileprogramm gespeichert hat.

Rhetorische Frage: Kann man die "audience" nicht auch über die Inhalte beeinflussen? Sobald es philosophisch, technisch, ... speziell wird, kann man gewisse Nutzergruppen quasi ausschließen.

Sowas geht immer. Aber wer will das? ich nicht.

c) Wann die Leute kommen
Uhrzeit?
zum Beispiel. Oder auch im größeren Rahmen: In der Woche. Oder im Monat. Oder gleich im Jahr: Kommen im Laufe der Zeit mehr oder weniger Leute auf meine Seite?
Solche Daten sind doch höchstens interessant, wenn es darum geht den Webserver zu tunen bzw. fürs Loadbalancing.

überhaupt nicht. Z.B. zeigt mir meine Jahresübersicht, dass im Januar extrem viel hits waren (etwa 45.000), im Laufe der Monate ist es immer, immer weiter runtergegangen, diesen Monat habe ich erst (etwa) 3.500 Hits verzeichnet. Sowas könnte ich sonst nie bemerken. Der Grund für diesen Rückgang ist außerdem, dass der server fast nie an war in den letzten Monaten, weil ich so vielbeschäftigt war. Trotzdem war das letzte halbe Jahr irgendwie bescheuert. Ich befürchte, dass ich nächtes Jahr noch weniger Zeit für sowas hier haben werde. Tja, die Pflichten rufen!

übrigens noch:
   d) Wie lange Leute durchschnittlich auf meiner Seite bleiben
Das ist durchaus interessant zu wissen, was aber darüber hinaus noch aufschlussreich ist einen guten Freund, Bekannten, ... Internet-Laien vor die Seite zu setzen und zu beobachten, wie er sich durch das Projekt navigiert, welche Fragen auftauchen sowie ob und wann er "Lost in Hyperspace" aufgibt. Diese Erkenntnisse sind sehr wichtig, denn wenn jeder "Depp" die Seite versteht, dann können es "Profis" und Suchmaschinen-Bots erst recht.

Na super, dann hast du eine Stichprobe, jemanden vielleicht Nerven geraubt und mehr auch nicht. Dann sehe ich das doch lieber auf viele hundert visits verteilt - und tada.

Außerdem gibt's "Lost in hyperspace" auf meiner sowieso nicht - dank einem besonderen Navigationsframe-Konzept, dass sich bei einzelstehenden Seiten, die speziell (mithilfe meta-tags) gekennzeichnet sind, dazuladen. Von diesen Seiten nämlich kommt man z.B. sonst schlecht wieder zum Portal und damit zur Navigationsstruktur - mithilfe dieses Infoframes ist man schnell wieder drin in der Seite.

e) Über welche Suchbegriffe meine Seite gefunden wird (bei Suchmaschinen, versteht sich)
Wie das? Referer?

jep.

f) Auf welchen Seiten Leute bei meiner Seite einsteigen ...
Du meinst, ob Unterseiten irgendwie extern verlinkt sind?

zum Beispiel.

g) ... und wo sie wieder aussteigen

= was sie am wenigsten interessiert hat (z.b.)

h) Wieviele "Visits" ich im Gegensatz zu reinen "Hits" habe
Das beinhalten ja bereits die Punkte d), f) und g).

Nein. währenddessen ein "hit" ein einzelner Aufruf zu irgendeiner Datei ist, bezeichnet ein visit einen komplettbesuch einer IP-Adresse. Also immer eine IP-Adresse dann ein Visit. mit einem Timeout von 30 Minuten max - dann wird's als neuer visit berechnet (logisch). Auffallend z.B.: Währenddessen meine Hits von 150.000 auf wenige tausend gesunken sind, sind die Visits gestiegen. => mehr leute kommen auf meine seite, aber sie surfen weniger rum.

die enorm vielen hits kommen übrigens vom webbasierten Chat, der im Januar ganz oft gelaufen ist. Trotzdem ist z.B. ein Chatbesuch mit mehreren dutzend hits nichtmal ein visit.

Aber damit kann man in der Tat z.B. auch (versuchte) DDoS-Attacken erkennen, wenn z.B. nur die /index.html nachgefragt wird, aber keine damit verlinkten Stylesheets, Grafiken, ...

theoretisch schon. Obwohl dann "telnet meinserver on Port 80 und enter GET /" auch als Dos-Attacke zu bewerten sein könnte.

Was sollte eigentlich eine DOS-Attacke auf den armen kleinen apachen bringen?

... und wahnsinnig viel mehr. Bereits mit'm Webalizer bekommt man sowas raus. Professionelle Loganalyzingtools können wahrscheinlich noch wesentlich mehr "errechnen" - bzw. geben bessere Statistiken aus ;-)
Wenn, dann wenigstens pures plain text lesen (mit dem VI) ;-)

...

d) Wieviel Prozent 404, 400, ...-Statuscodes ausgegeben wurden
Wieso dass denn? Reicht da nicht die reine errorlog?
hmm.... sagen wir mal so: Mein Webalizer analysiert den accesslog und nicht den errorlog ;-)
Ich habe auf meinem privaten Webserver daheim zum Testen nur noch die errorlog aktiviert, weil das vollkommen reicht, aber ne accesslog hat schon den Vorteil, dass man z.B. sieht wann man ins Internet ist und vergessen hat den Apachen zu beenden ;-)

Naja, accesslogs haben noch ganz andere vorteile, das ist klar.

das problem bei mir ist, dass mein accesslog bereits so gigantisch groß ist - hmmmm... knapp 30MB sind das inzwischen.

Gruß,

Sven

--
!:        I'm back!
Selfcode: ie:% fl:| br:^ va:{ ls:& fo:) rl:( n4:( ss:) de:> js:| ch:° mo:} zu:}
Encode:   http://forum.de.selfhtml.org/cgi-bin/selfcode.pl
Decode:   http://peter.in-berlin.de/projekte/selfcode/
E-Mail:   coming soon
me:       'd comed long ago