Hallo Michael
Technisch gesehen würde der Trick darin bestehen, den existierenden Schwanzabschneider zu nehmen und seine Eingabeschnittstelle so anzupassen, daß er eben nicht Forumspostings einliest, sondern Selfhtml- oder Auslese-Dateien
Warum sollte er bei jedem Lauf von neuem diese immer gleichen Dateien mit indexieren?
Ich stelle mir eher ein Arbeits-Script vor, dass vom Schwanzabschneider getrennt ist und bei Bedarf den Inhalt der Verzeichnisse von SELFHTML und der Forumsauslese indexiert.
Die indexierten Daten wuerde ich auch nicht an die vorhandene Suchindexdatei des Forumsarchivs anhaengen, sondern in eine eigene, vergleichbare Suchindexdatei mit eigenem Aufbau schreiben. Wenn dann jemand nur im Feld "Verfasser" sucht, findet er halt nur Forumsnachrichten und nichts aus SELFHTML oder Auslese.
Die Suche muesste dann eben zwei Indexdateien durchsuchen statt nur eine. Kann man ja auch als Checkbox optional einstellbar machen, welche Bereiche durchsucht werden sollen.
Wie fein soll geindext werden?
Volltext. Drunter kommt finde ich nichts in Frage. Die bisherigen, auf Meta-Daten beruhenden Suchen sind einfach zu wenig.
Und was die Linkzuordnung betrifft: bis auf die Zwischenüberschriften genau. Also #a1, #a2 usw. - entsprechend in der Forumsauslese. Bei letzterer koennte man auch noch die dort fuer Suchzwecke eingefuehrten hidden-Formularfelder am Anfang jeder Zwischenueberschrift mit indexieren.
Vorschlag fuer den Zeilenaufbau der Indexdatei fuer SELFHTML und Auslese:
DateinameAnkernameUeberschriftentextResttext
So koennte man auch noch zwischen Ueberschrift und uebrigem Text gewichten in der Suche.
Tja, und dann gibt es da noch was: die Suchindexdatei fuer's Forumsarchiv ist jetzt bei ca. 40 MB. Die Antwortzeiten werden doch allmaehlich laenger. Irgendwann wird wohl mal eine andere Loesung hermuessen als die selbstgestrickten Indexdateien. Any ideas? Vielleicht bitte nicht gleich die Fireball-Datenbank-Loesung fuer ein paar hundert Tausend Mark. Und tendenziell eher eine Loesung, bei der nicht die Dateien des Forumsarchivs selber ersetzt werden. Denn ich mag es eigentlich ganz gerne so wie es jetzt ist, dass die Archivdateien als statische HTML-Dateien existieren, die auch von grossen Such-Robots indexiert werden usw.
viele Gruesse
Stefan Muenz