Hi Rolf
Z.B. Phrasensuche könnte erst in der 2 Stufe realisiert werden.
Erst Sourcen ansehen, dann meckern. Das wird genau so gemacht in der neuen Suche.
Ich bin davon ausgegangen dass ihr analog zu Textzeilen pro Stichwort ein Array mit Referenzen zu Postings ablegt.
Nein, das würde einen zusätzlichen Join bedeuten, zudem müsste eine Referenz bei uns wohl 8 Byte gross sein. Es bedeutet also speicherplatzmässig kaum Gewinn.
Wie vorgerechnet käme eine _Datei_ mit Stichwortindex mit deutlich weniger aus. Insbesondere wenn durch Einsatz eines Stoppwortfilters die Anzahl der Stichwörter reduziert wird.
Ein Stoppwortfilter wird ebenfalls eingesetzt.
Meinst du nicht der skizzierte Stichwortindex als Hasharray realisiert würde es können, und würde auch von der Performace mithalten?
Ein Hasharray kann erst recht nicht zwischen Gross- und Kleinschreibung unterscheiden. Dazu kommt noch, das eine Hashtabelle um effizient zu sein eigentlich komplett im Speicher gehalten werden muss.
Der Ansatz ist wohl mit einer DB eine bewährte und wartungsarme Technologie einzusetzen, deren Overhead mit Hardware kompensiert werden kann.
Jein, ohne Suchbäume kommt man kaum aus, ebenso nicht wirklich um Joins. Beides hat eine Datenbank bereits zuverlässig und auch zügig implementiert. Der Overhead ist also nicht so gross wie zu erwarten wäre. Bei einem Eigenbau mit begrenzter Entwicklerkapazität wäre das ziemlich schwierig ähnlich gut oder sogar besser hinzukriegen.
Gruss Daniela