Tim Tepaße: Forumsstatistik

Beitrag lesen

Hallo Mathias,

Naja, wenn wir uns keine Arbeit machen wollen, müssten wir das gesamte Archiv packen und ihm übersenden, das geht aus Datenschutzgründen nicht.

Und es ist groooß, selbst gepackt.

Also müssen wir die Auswertungsscripte doch selbst schreiben, und wenn wir so ein Script (was nicht sonderlich viel Arbeit ist, aber ich habe gerade keine Lust) haben, ist eigentlich auch alle Arbeit getan.

Sollte zufällig ein Dev Lust bekommen: Ich hatte letzten Herbst mit etwas Statistik rumgespielt und dabei ist ein nicht mehr wirklich ausgebauter, dahingehackter OO-Wrapper über dem Archiv rausgekommen: cforum.py. Im wesentlichen ist das nur etwas Code, der einen befähigt, das Archiv oder einen Teilabschitt desselben so durchzugehen:

~~~python from cforum import Archive

for thread in Archive("pfadname"):
      for posting in thread:
          print posting.author, posting.subject

  
Eine Beispielanwendung wäre der Spaghetti-Code von [flux.py](http://tepasse.org/tmp/forum-statistik/flux.py), mit dem ich damals versucht habe, die Fluktuation von Stammposter von Monat zu Monat und besonders von Forumsschliessung zu Forumsschliessung rauszubekommen. (Keine besonderen Abweichungen, es hängt auch stark von den Indizien ab, wie man so etwas vages wie „Fluktuation“ bestimmen will. Namensgleichheit und Monate als zu vergleichende Zeitabschnitte sind da eher grob.)  
  
Jedes Auswerteskript, das man regelmäßig anwenden will, hat beim Forumsarchiv natürlich den Nachteil, das es alle einzelnen Threaddateien nacheinander lesen und parsen muss und das dauert. Auf Odin hatte ich damals eine geschätzte Durchlaufzeit von 15+ Minuten. Wenn man es regelmäßig machen will, empfiehlt es sich also, einmal durchzulaufen, die interessanten Daten in eine Datenbank oder in anderer kompressierter Form abzulegen und das dann nur noch regelmäßig mit neuen archivierten Threads aufzufrischen.  
  
Ganz abgesehen davon, ob es überhaupt sinnvoll ist, ständig aktualisierte Statistiken bereit zu stellen, wer den längsten hat, wer die meisten Negativbewertungen hat, etc. Ich fände den Highscore-Effekt nicht so erstrebenswert. Und als rechtlicher Laie gesprochen: Bei jeder personenbezogenen Auswertung, bei dem zu Personen Daten kalkuliert werden, kommen da im Bauch Datenschutzbeschwerden, gerade zu den Themen Datensparsamkeit und Zweckbindung auf. Ich würde es lassen; mir fallen da spontan zwei Trolle ein, die da wieder rumkrakelen werden. ;)  
  
  
Tim