Anzahl der Besucher ermitteln
Sandra
- webserver
0 Reiner0 Sandra
0 Ingo Turski0 Sandra0 Ingo Turski0 Sandra
Hallo!
Wir sammeln die Zugriffe auf unseren Webserver in einer SQL-Datenbank. Ist es eine passable Methode, die Menge der Datensätze aus select ... where type="text/html" and ...zeitraum... group by agent,host (type: MIME-Typ der ausgelieferten Daten, agent: User-Agent-Zeile vom Browser, host: IP-Adresse) als Anzahl der Besucher zu benutzen ?
Mir erscheint das irgendwie recht zuverlässig, basierend auf der Annahme, dass die meisten Leute mit nur einem Browser unterwegs sind und außerdem über eine temporäre IP-Adresse verfügen, sowie angesichts der Tatsache, dass der IE (mit irgendwas bei 85% der Browser mit dem höchsten Anteil bei uns) in einer Unzahl verschiedener Varianten daherkommt.
Dass da zwei Besucher mit dem gleichen Browser und der gleichen IP-Adresse an einem Tag vorbeischauen, ist unserer Meinung nach äußerst unwahrscheinlich.
Andererseits habe ich doch irgendwie das Gefühl, daß da irgendwo ein Denkfehler drin steckt und doch eine nennenswerte Anzahl Besucher unterschlagen wird. Was meint ihr? Wie zuverlässig ist das alles? Oder haben wir uns vielleicht völlig verrannt?
Liebe Grüße, Sandra *:-)
PS: Bitte keine superschlauen Kommentare, dass solche Auswertungen nichts taugen, weil man Besuche mit HTTP nicht messen kann. Wir wollen nur einen groben, schnellen Überblick dieses einen Attributs, keine handverlesene Auswertung zum Die-Wände-tapezieren-und-mächtig-stolz-drauf-sein. Mit den bunten, supischickbeeindruckenden Webalizer-Tortengrafiken dürfen andere Kinder spielen ;-)
Hallo Sandra,
Deine Idee an sich ist schon ganz gut!
Ob gewisse Leute sich von einem "gut gemeinten" Kommentar abhalten lassen, wage ich zu bezweifeln... (siehe <//http://forum.de.selfhtml.org/?t=81933&m=476884>)!
Nur eine Anmerkung generell:
Meiner Meinung nach ist es - gerade bei Statistik - grundsätzlich falsch - verfrüht - eigene Annahmen in eine Auswertung so einfließen zu lassen, daß man Daten wegwirft und nicht in der Lage ist, diese hinterher u.U. zu revidieren.
D.h. ich bezweifle, daß NICHT mehr als eine Person mit ein und dem gleichen Browser und der gleichen IP zugreift!
Wenn Du allerdings mal mit den vorhandenen Daten spielst, z.B. die Zeiten auf 20-30 Minuten für einen Visit abgrenzt, kommst Du sicher auf gute Werte.
Wir verwenden unter http://www.w3research.com eine ähnliche Technik, aber dort fließen außer IP und Useragent noch Auflösung, PlugIns, usw. mit ein. Das macht das ganze schon recht brauchbar.
Viele Grüße,
Reiner
Hallo!
D.h. ich bezweifle, daß NICHT mehr als eine Person mit ein und dem gleichen Browser und der gleichen IP zugreift!
Wenn Du allerdings mal mit den vorhandenen Daten spielst, z.B. die Zeiten auf 20-30 Minuten für einen Visit abgrenzt, kommst Du sicher auf gute Werte.
Da hast Du sicher recht, die Überlegung war nur, die Summe möglichst einfach, am Besten auch direkt über die SQL-Konsole zu bekommen. Und bei großer Langeweile vielleicht auch mal als Liveinfo in den Mediadaten (Spielkram, ich weiß :-). Prinzipiell wäre es natürlich schlauer, die Daten auch minutenweise auszuwerten, also Sitzungen richtig zu verfolgen. Nur ob das so viel besser wird, warum umständlich, wenn's auch einfach geht? Wir werden mal evaluieren, welche Unterschiede dabei rauskommen.
Großartige Statistiken führen wir nicht, letztenendes geht es nur um Trends und eine Zahl, mit der man die Marketing...ähm...menschen glücklich machen kann :-)
Danke für Deine Einschätzung! Sandra
Hi,
Du übersiehst dabei ein paar Punkte:
Dass da zwei Besucher mit dem gleichen Browser und der gleichen IP-Adresse an einem Tag vorbeischauen, ist unserer Meinung nach äußerst unwahrscheinlich.
ist es absolut nicht, jedenfalls nicht mit dem o.g. UserAgent.
Andererseits habe ich doch irgendwie das Gefühl, daß da irgendwo ein Denkfehler drin steckt und doch eine nennenswerte Anzahl Besucher unterschlagen wird.
eher zuviel gezählt, siehe AOL und Robots
Mein Auswertungsprogramm z.B. zählt die Zugriffe einer IP (die nicht von einem Robot stammen) als einen Besuch, solange zwischen den Seitenanforderungen nicht mehr als 30 Minuten liegen. Hierbei werden Zugriffe eines Besuchers mit unterschiedlichen IPs in diesem Zeitraum identifiziert und zusammengerechnet.
freundliche Grüße
Ingo
Hallo!
Du übersiehst dabei ein paar Punkte:
- der IE kommt zwar mit etlichen Varianten, aber wenn ich mal ein Log von mir auswerte, dann hatten von 5423 MSIE 6 2170 exakt den UswerAgent "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)".
Am selben Tag? Aber du hast natürlich schon recht, ganz wichtig ist die Anzahl der Besuche innerhalb des Zeitraums, je mehr, desto ungenauer wird es. Ein Punkt, den wir noch nicht richtig beachtet haben. Wochenauswertungen (also Zeitraum in der SQL-Abfrage über sieben Tage) kann man damit in unserer Situation (~30.000 Seiten pro Woche, zudem wegen Datenschutz nur partielle IP-Speicherung) sicher vergessen.
Wir werden unseren Miniansatz also auf jeden Fall doch besser mal mit der klassischen, aufwendigeren 20-Minuten-Regel vergleichen, um die Abweichungen festzustellen.
- die IPs können sich ändern, besonders bei AOL-Usern sogar xfach während eines Besuches.
Stimmt, aber da ist man dann sowieso aufgeschmissen. Und wer benutzt schon AOL ;-)
- was ist mit den Robots?
Die filtern wir natürlich raus, ich habe das jetzt nur wegen der Übersichtlichkeit weggelassen.
Mein Auswertungsprogramm z.B. zählt die Zugriffe einer IP (die nicht von einem Robot stammen) als einen Besuch, solange zwischen den Seitenanforderungen nicht mehr als 30 Minuten liegen. Hierbei werden Zugriffe eines Besuchers mit unterschiedlichen IPs in diesem Zeitraum identifiziert und zusammengerechnet.
Da hast Du dann aber noch viel mehr das Problem mit dem User-Agent, welches du oben erwähnst. Dass der gleiche Browsertyp innerhalb einer halben Stunde unter verschiedenen IPs von verschiedenen Benutzern erscheint, ist doch sehr viel wahrscheinlicher als dass mehrere Benutzer unter der gleichen IP den gleichen Browsertyp verwenden.
Ohne die Verwendung anderer Merkmale finde ich diese Vorgehensweise sehr ungenau. Besonders der Cookieeinsatz kommt für uns nicht in Frage (Datenschutz, erwähnte ich ja oben schon mal). Wir müssen/wollen uns auf die Daten beschränken, die wir haben (User-Agent und IP).
Trotzdem danke für Deine Einschätzung! Sandra
Hi,
Am selben Tag?
Nein..;-) Aber das spielt für das Verhältnis doch auch keine Rolle. Von daher kann ich auch
ganz wichtig ist die Anzahl der Besuche innerhalb des Zeitraums, je mehr, desto ungenauer wird es.
nicht nachvollziehen.
Wir werden unseren Miniansatz also auf jeden Fall doch besser mal mit der klassischen, aufwendigeren 20-Minuten-Regel vergleichen, um die Abweichungen festzustellen.
warum nicht 30 Minuten? Nach der deutschen Werbewirtschaft zählt ein Zugriff nach dieser Zeit auch als neuer Besuch.
- die IPs können sich ändern, besonders bei AOL-Usern sogar xfach während eines Besuches.
Stimmt, aber da ist man dann sowieso aufgeschmissen. Und wer benutzt schon AOL ;-)
Bei mir ca. 3%. Und auch z.B. Telekom-User wechseln ihre IP schonmal.
Dass der gleiche Browsertyp innerhalb einer halben Stunde unter verschiedenen IPs von verschiedenen Benutzern erscheint, ist doch sehr viel wahrscheinlicher als dass mehrere Benutzer unter der gleichen IP den gleichen Browsertyp verwenden.
Stimmt. Deshalb berücksichtige ich IP, komplette Userkennung und Referrer, wobei die letzten beiden Punkte insbesondere dafür eingesetzt werden, um Zugriffe eines Besuchers mit wechselnden IPs zu erkennen. Aber Du kannst das Programm auch gerne mal ausprobieren (sofern Apache Logfiles vorliegen) und mit Deinen Ergebnissen vergleichen.
freundliche Grüße
Ingo
Hallo!
ganz wichtig ist die Anzahl der Besuche innerhalb des Zeitraums, je mehr, desto ungenauer wird es.
nicht nachvollziehen.
Ist doch ganz einfach: Die Wahrscheinlichkeit, dass unter 5000 Besuchern mehrere mit gleichem Browser von gleicher Adresse kommen, ist höher als wenn man nur 50 Besucher betrachtet.
Wir werden unseren Miniansatz also auf jeden Fall doch besser mal mit der klassischen, aufwendigeren 20-Minuten-Regel vergleichen, um die Abweichungen festzustellen.
warum nicht 30 Minuten? Nach der deutschen Werbewirtschaft zählt ein Zugriff nach dieser Zeit auch als neuer Besuch.
Keine Ahnung, ich kenne nur den 20 Minuten-Abstand. Aber da das mit der Besucherzahl sowieso Auslegungssache ist, sind die zehn Minuten sicher auch nicht weiter schlimm :-)
Stimmt. Deshalb berücksichtige ich IP, komplette Userkennung und Referrer,
Userkennung haben wir nicht, weil sich keiner anmelden muss, Referrer ist nur mäßig brauchbar, weil eine Menge Browser unsere Seiten kurzzeitig zwischenspeichern und sich so immer wieder Lücken ergeben.
Liebe Grüße, Sandra
Hi,
ganz wichtig ist die Anzahl der Besuche innerhalb des Zeitraums, je mehr, desto ungenauer wird es.
nicht nachvollziehen.Ist doch ganz einfach: Die Wahrscheinlichkeit, dass unter 5000 Besuchern mehrere mit gleichem Browser von gleicher Adresse kommen, ist höher als wenn man nur 50 Besucher betrachtet.
ich meinte den Zeitraum, nicht die Anzahl; d.h. ob die 5000 Besucher mit gleichem Browser in 1 Stunde oder 1 Woche registriert werden, ist ziemlich egal.
Referrer ist nur mäßig brauchbar, weil eine Menge Browser unsere Seiten kurzzeitig zwischenspeichern und sich so immer wieder Lücken ergeben.
auch hier wieder ein kleines Mißverständnis. Der Referrer kann durchaus sinnvoll zur Auswertung - hier zum Ermitteln von IP-Wechseln eines Besuchers - herangezogen werden. Folgende Programmlogik dazu:
freundliche Grüße
Ingo