Selfsuche- Indexerzeugung?
Pedro
- sonstiges
0 Michael Schröpl0 Pedro
Hallo an alle,
ich habe mal ne frage: die selfhtml-Suche enthält viele suchoptionen (autor...). Wie funktioniert die Indexierung? Muss man die werte manuell in eine db eintragen, gibt es ein user-interface oder sogar eine automatische indiezierung?
Lässt sich das script gegebenenfalls auch downloaden?
gruß Pedro
HI Pedro,
die selfhtml-Suche enthält viele suchoptionen (autor...).
Wie funktioniert die Indexierung?
das Format der Indexdatei ist ganz primitiv - im Prinzip CSV, nur eben
nicht mit Kommata getrennt, sondern mit senkrechten Strichen (in der
Hoffnung, daß in realen Texten keine senkrechten Striche vorkommen -
eine Design-Entscheidung aus den Gründertagen).
Es gibt eine Reihe verschiedener Arten von Dokumenten, welche mehr oder
weniger sinnvolle Werte für die einzelnen Felder liefern können.
Beim Forum-Archiv ist das relativ einfach - an dem orientiert sich das
Format der Indexdatei ja, die Postings können zu allen Feldern sinnvolle
Werte liefern.
Bei anderen Dokumenten, etwa den Feature-Artikeln oder SelfHTML selbst,
ist das etwas knifliger - da wird für bestimmte Felder (Name, Datum)
ggf. ein Wert durch den Indexer eingesetzt werden müssen.
Muss man die werte manuell in eine db eintragen,
gibt es ein user-interface oder sogar eine automatische indiezierung?
Es gibt für jedes Dokument-Format ein eigenes Perl-Skript, das manuell
gestartet aus dem vorliegenden Datenbestand eine Indexdatei berechnet.
Bei den Feature-Artikeln macht man diese Indexierung ja nur alle paar
Monate mal, bei SelfHTML eher noch seltener.
Anders ist das mit dem Forum. Eigentlich müßte jeder thread, der vom
Schwanzabschneider ins Archiv ausgelagert wird, sofort geindext werden.
Dieses Bindeglied zwischen beiden Produkten ist aber nie geschrieben
worden. Deshalb läuft auf dem Server irgendwann in den frühen Morgen-
stunden ein cron-Job, der das Auslagerungsergebnis eines Tages indext
und die entsprechende Archiv-Indexdatei vergrößert.
Es dauert also ggf. einen Tag, bis ein archiviertes Posting suchbar ist.
Das sorgt hier im Forum immer mal wieder für Verwunderung ... es ist
halt eine offene Baustelle, und keines der beiden Produkte wird weiter
entwickelt werden, da es zu beidem seit Monaten (wenn nicht Jahren ;-)
Nachfolgeprojekte gibt.
Lässt sich das script gegebenenfalls auch downloaden?
Da mußt Du Dich an die Redaktion wenden.
Das Skript war nie als eigenständiges Produkt geplant - ursprünglich
war es ein Teil des Forums, die Idee mit dem Indexen der übrigen
Dokumentformate ist erst später dazu gekommen
Ein Problem ist sicher auch die Philosophie der Treffer-Einheiten.
Das, was die Self-Suche als Ergebnisse liefert, sind nicht etwa Links
auf Dokumente, sondern Links auf "Kapitel" - die Treffer werden so genau
gesetzt wie nur möglich. Dies wiederum bedeutet aber, daß jeder Indexer
eine ganz eigene Vorstellung davon haben muß, was an einem Dokument
ein "Artikel" ist - und dieses Wissen ist ziemlich heftig in diese
Indexer eingebrannt.
Die Suche ist also definitiv nicht ohne erhebliche Änderungen für be-
liebige andere Einsatzzwecke brauchbar. Das Funktionsprinzip natürlich
schon - aber in dieser Hinsicht ist FDSE sehr viel eher das, was Du
haben möchtest.
Viele Grüße
Michael
»ok,
ich danke dir :-)
Gruß Pedro