Moin,
Nachdem das Thema Suchen hier immer wieder Gegenstand der Diskussion ist, möchte ich ein paar Gedanken dazu loswerden. Soviel vorweg: Es wird nicht klappen.
Warum?
Das erste Problem ist das leichteste: Womit wird gesucht? Man nehme eines der sattsam bekannten Perl Skripte, vielleicht auch eines der ausgefeilteren.
Dann wirds schon etwas schwieriger: Worin wird gesucht? Das können entweder die alten Beiträge sein, in ihrer Form als einzelne HTML Seiten oder die Zusammenfassungen, die Stefan regelmäßig mit dem "Schwanzabschneider" erstellt. Wenn ichs richtig verstanden habe, dient dieses Tool unter anderem dazu, die Masse an Dateien auf dem Server zu verkleinern. Im ersten Falle müßten sämtliche Einzeldateien und die jeweilige Zentralseite erhalten bleiben. Im zweiten Falle wären die zu durchsuchenden Objekte die Zusammenfassungen. Lange Seiten mit zig Threads.
Hier lauert das nächste Problem: Um die einzelnen Beiträge dann lokalisieren zu können, müssen einzelne Anker und IDs vergeben werden, denn ein Suchergebnis, das aus einer Seite mit 20 Threads besteht, muss sonst nochmal umständlich von Hand mit der Suchfunktion des Brauses durchsucht werden.
Die groessten Probleme sind aber die der Relevanz der Suchergebnisse und der Möglichkeiten der Gewichtung: In diesem Forum werden Diskussionen um immer dieselben und dabei nur sehr wenige Begriffe geführt: Frames, Tabellen, JavaScript, Objekt, etc. Alle diese Begriffe werden erst im Zusammenhang mit einem konkreten Problem und dessen Lösung interessant. Das heisst: Ein kompletter Satz konkretisiert das Thema. Aber welcher? Die wenigsten Threadtitel sind aussagefähig.
Was ist mit Tippfählern, Threaddrift, korrekter Terminologie? heisst es: animiertes gif, animated gif, Gifanimation, Gif-Animation, Gif animieren, Animierte Gif‚s? Oder gif‚s animieren? Alle diese Begriffe sind unterschiedliche Zeichenketten und würden von einer Volltextsuchmaschine als komplett eigenständig behandelt werden. In welchem Zusammenhang steht als der Begriff jeweils? Muss man also verschiedene Phrasensuchen probieren?
Wonach soll man also suchen? Alle Alternativen eintippen?
Worin soll gesucht werden? Da die Threadtitel nicht recht funktionieren, im Volltext? Dann gibt es noch mehr in verschiedenen Zusammenhängen vorkommende Begriffe. Also muss eine Gewichtung her. Wie soll gewichtet werden? Erst der Titel, dann der Text, dann die Häufigkeit des Vorkommens des Begriffes? Wie ist sichergestellt, dass der Begriff auch wirklich oft genug vorkommt?
Ihr seht: So simpel isses nicht. Selbst ein solchermassen immernoch unzureichend funktionierendes Maschinchen muss ziemlich komplex sein.
Das ist übrigens nicht allein auf meinem Mist gewachsen, sondern eine Zusammenfassung einer Diskussion mit Stefan Müller, der das Profimaschinchen www.blinde-kuh.de, eine Suchmaschine speziell für Kids programmiert hat. Wir sind, was die Probleme angeht, ziemlich einer Meinung.
Es gibt allerdings einen Lösungsansatz: Jeder Beitrag kann vom Verfasser in eine Rubrik einsortiert werden, die möglichst detailliert erarbeitet werden muss. Was aber mit den Grenzfällen? Wenn sich herausstellt, dass ein in JavaScript eingeordneter Beitrag in die Schachtel mit Brauserbugs gehört?
Zusammenfassend: Die bisherigen Beiträge technisch "irgendwie" maschinell durchsuchbar zu machen ist einfach. Daraus ein funktionierendes Werkzeug zu bauen, das auch tatsächlich relevante Treffer zu komplexen Abfragen bringt, ist ohne redaktionellen Input unmöglich.
Dauerhaft sinnvoll ist das manuelle Einsortieren der Beiträge in verschiedene Rubriken, NACHDEM die Threads abgeschlossen sind. Da kann man dann ein kleines Maschinchen drüberrappeln lassen. Sinnvoller wäre aber eine Verschlagwortung. Eine Heidenarbeit, die nie abreisst. Wenn es jemanden gibt, der das bringt - Applausapplaus!
Stefan Karzauninkat