Frohes neues Christian,
Ich weiss nicht, was du mit zweistufig meinst,
siehe https://forum.selfhtml.org/?t=97702&m=595113, ihr realisiert glaube ich eh nur die erste Stufe, die Stichwortsuche (was 95% der Anfragen abdecken sollte).
Z.B. Phrasensuche könnte erst in der 2 Stufe realisiert werden.
aber ein Stichwort-Index in einer Datenbank braucht zwangslaeufig mehr Platz als ein simpler Volltext-Index in Dateien. Die Metadaten, von denen ich sprach, braucht die Datenbank, um die Daten verwalten zu koennen.
Was sind hier Metadaten?
Feldgroessen, Pointer zu dem naechsten Eintrag, etc, pp.
OK dann hab ich Metadaten missverstanden, instinktiv geschätzt dürfte der Overhead aber höchstens linear sein, doppelter Platzbedarf?
Speichert ihr zu jedem _Wort_ Autor, Datum, Link, etc als Strings ab?
Es reicht doch eine Referenz aufs Postinginfos in einer Tabelle
abzulegen, soviel Zeit kostet das doch wohl nicht.Nein, aber 4 Byte (willkuerlich) bei jedem Stichwort mehr als bei Dateien
mit pro Zeile einen Datensatz ;-)
Ich bin davon ausgegangen dass ihr analog zu Textzeilen pro Stichwort ein Array mit Referenzen zu Postings ablegt. Wie vorgerechnet käme eine _Datei_ mit Stichwortindex mit deutlich weniger aus. Insbesondere wenn durch Einsatz eines Stoppwortfilters die Anzahl der Stichwörter reduziert wird.
Versucht Michaels Script eigentlich den Vollindex im Speicher zu
halten, und wenn ja wieviel RAM hat der Server?Natuerlich nicht, *krkr*
Meinst du nicht der skizzierte Stichwortindex als Hasharray realisiert würde es können, und würde auch von der Performace mithalten?
Der Ansatz ist wohl mit einer DB eine bewährte und wartungsarme Technologie einzusetzen, deren Overhead mit Hardware kompensiert werden kann. Bleibt die Hoffnung dass das Archiv jetzt nicht schneller wächst als Moores Gesetz :)
Bye
Rolf