Michael Schröpl: auf der Homepage am häufigsten gesuchte Wörter finden?

Beitrag lesen

Hi,

Gibt es vielleicht bereits Programme, die an Hand
von Logfiles solche Rankinglisten für Suchwörter
erstellen?

der Webalizer kann das. Schau Dir mal
   http://webalizer.teamone.de/selfforum/search_200207.htm
an.

Ein Suchmaschinenaufruf - und zwar egal, von
welcher Suchmaschine - läßt sich fast immer durch
zwei Angaben beschreiben:
 1. einem URL des Such-Skripts und
 2. einem CGI-Parameter für den Suchbegriff.
Genau diese beiden Angaben will der Webalizer in
seiner Konfigurationsdatei haben - und damit kann
er dann jeden URL des Webserver-Logs prüfen, den
Suchbegriff extrahieren und eine Statistik führen.

Die Suchanfragen sehen sicher in Logfiles für jede
Suchmaschine anders aus, aber die URL für die
Suchanfrage und die Feldnamen für Suchwörter lassen
sich parametrisieren in einer Konfigurationsdatei?

In der Webalizer-Konfiguration kannst Du beliebig
viele Paare aus Suchmaschinen-URL und Suchbegriffs-
Parameter angeben.
Wenn Du nur Deine eigene Suchmaschine analysieren
willst, dann ist das einfach; willst Du jeden fremden
Suchmaschinenzugriff analysieren, der zu Deiner Seite
geführt hat, müßtest Du dasselbe für die HTTP-Referrer
tun und jede Dir bekannte Suchmaschine eintragen.

Ich selbst mache das auf meiner Domain alle paar
Wochen - ich werte dabei zwar nicht die Suchbegriffe
aus, aber ich lasse den Webalizer die Referrer
inhaltlich zusammenfassen (ich will beispielsweise
wissen, welcher Anteil meines Traffic von Seiten
kommen, die sich mit bestimmten Themen befassen).

Dabei kann der Webalizer die zusammengefaßten URLs
aus der sonstigen Statistik ausblenden - auf diese
Weise sehe ich URLs, die ich noch nicht klassifiziert
habe, und kann meine Gruppierungs-Definitionen immer
weiter verfeinern (und anschließend die Auswertung
der noch vorhandenen Logfiles einfach nochmal laufen
lassen).

Hauptaufwand wäre wahrscheinlich die Programmierung
einer Funktion, die alle gesuchte Wörter in Logfiles
ausfiltert und für diese Wörter die
Häufigkeitsstatistiken errrechnet.

Der Trick ist es, daß dieser Filter gesagt bekommt,
was von den URLs ein Suchbegriff ist und was nicht.
Selbst erkennen kann er das nicht.

Viele Grüße
      Michael
(der FDSE mag und auch selbst benutzt, hier aber eine
 allgemeingültige Lösung anbieten wollte)