Halihallo Michael
Ja, da gebe ich dir recht. Ein kleines "aber": Die Suche ist noch immer eine Stichwort-
suche. Dazu komme ich noch...
hm. "Die Suche" war schon immer eine Volltextsuche. Wäre sie eine reine Stichwortsuche, dann wäre der Ansatz, sie über mySQL-FULLTEXT zu reimplementieren, sehr viel erfolgreicher gewesen.
Falsche Wortwahl von mir, Volltextsuche ist natürlich richtig. Dennoch basiert die Suche
auf Stichwörter, also auf Wörtern, die aus dem Text extrahiert werden => ohne
Relevanzgewichtung kann es hier keine precision geben.
Wir hatten über Jahre hinweg immer mal wieder darüber nachgedacht, eine Ranking-Funktion zu implementieren.
Heute, da Googles "link popularity"-Ansatz bekannt und erfolgreich ist, müßte man sich mal fragen, ob eine vergleichbare Idee innerhalb des Archivs (Postings, auf welche viele andere Postings verlinken, sind "wertvolle" Postings) zu einem erfolgversprechenden Ansatz führen könnte ... das hätte nämlich den lustigen Nebeneffekt, daß jeder, der ein Posting kompetent (durch Setzen eines Link - er muß also die FAQ gelesen haben ;-) beantwortet, diesen Datenbestand pflegt, ohne jede zusätzliche Dialog-Software! Und wenn nur die Anzahl der Links _auf_ ein Objekt relevant sind, dann kann man diese während des Archivierungsvorgangs inkrementell erhöhen ...
Hm. Die Idee wäre bestimmt nicht schlecht, nur möchte ich bezweifeln, dass wir über
diese Funktionalität wirklich gute Ergebnisse kriegen. Der Datenbestand ist für dieses
Verfahren sehr klein und der Kontext in dem ein Link gesetzt wird muss nicht immer
bedeuten, dass das Posting relevant/sinnvoll ist. Empirisch würde sich dies ausgleichen
und man bekommt gute Ergebnisse, aber dafür braucht man eben einen grossen Datenbestand
wie das Internet. Aber das sind nur meine unbestätigten Gedanken, vielleicht würde es
wirklich gut gehen.
Mir geht es eben nicht um dies, sondern die
precision zu verbessern, mein Vorschlag wäre hier eben eine Klassifizierung mit einer
Indexierung (Schlagwörter) zu kombinieren.
Das nützt aber nur dann etwas, wenn die Schlagwörter
a) bekannt sind und
b) einheitlich vergeben werden.
Letzteres wird durch die vom Datenvolumen bedingte wahrscheinlich größere Anzahl an Redakteuren vermutlich stark behindert.
Ja, das sehe ich ein.
In meinen Überlegungen gehe ich eigentlich davon aus, dass jeder gute Anfragen
stellen kann.
Kann mal bitte jemand die Statistik veröffentlichen, wieviele Suchbegriffe mit welcher Wahrscheinlichkeit verwendet werden? (Es müßte so ein Skript von CK1 geben - ich glaube, ich habe mit Daniela mal per Mail darüber diskutiert.) Ich denke, diese Statistik würde Dich widerlegen.
Ich sagte: ich gehe davon aus. Ich sagte nicht, dass ich daran glaube. Und in der Tat,
glauben tue ich das genauso wenig wie die Statistik aussagt. Aber die Unfähigkeit die
Suche zu benutzen ist für mich einfach kein Grund etwas zu ändern.
Tut er dies nicht, ist er selber schuld.
Yep, und das trifft 9x% aller Besucher hier, behaupte ich mal. Entsprechend sehen die Threads aus ...
Ist doch positiv, die Indexierung würde sich nur auf 10% der Postings beschränken.
Obwohl man von der Selektierung natürlich nicht befreit ist...
Du wirst mir _keine_ Suchanfrage angeben können, die alle Postings zum Thema Datenbank
ausgibt und zwar so, dass sie alle auch wirklich relevanten Inhalt haben.
Wahr, denn diese Aufgabe wäre http://www.jargon.net/jargonfile/a/AI-complete.html.
Naja, so weit muss man ja gar nicht gehen. Es würde schon reichen, würde die Suche
dahingehend geändert, dass sie den Inhalt gewichtet (eg. wie andere Suchmaschinen).
Aber die Volltextsuche hat ihre Nachteile.
Und die Person, welche das Indexing durchgeführt hat. Leider.
Das ist zwar richtig, ändert aber nichts am Mehrwert eines bewerteten/gewichteten
Indexings. Aber hier würde ich ein maschinelles Verfahren auch vorziehen, da es
a) weniger Aufwand macht und
b) konsistenter ist als menschliches Indexing
Damit habe ich genau das Problem, das ich auch bei den Feature-Artikeln habe: Ich muß den gesamten Baum auswendig gelernt haben, um den Lagerungsort eines Artikels zu finden, wenn _mir_ die Klassifikation auf oberster Ebene nicht _vollständig_ transparent ist.
Tja... Leider richtig.
Viele Grüsse
Philipp
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.