Hi,
Also alleine schon ein knappes Gig für die platzsparendste(!) Lösung!
ein knappes MB :) Oder scklucken deine Oktets 1KB?
Da steht nix von Gigabyte, da steht nur Gig. Ein Gigabit würde z.B. passen.
Aber in solche Fallen kann man an Neujahr schon mal tappen; genauso, wie sie zu Sylvester gerne mal gestellt werden - in der Sektlaune ;-)
Ich denke Hashtabllen sind ziemlich unschlagbar.
Hashtabellen sind nur dann erfolgreich, wenn alle, und ich meine _alle_, Daten vorher bekannt sind. Nur dann kann ein "perfect hash" erstellt werden, es gibt keine Kollisionen und es gilt O(1). Zudem ist der Hashwert nicht einfach bekant, sondern muß vorher berechnet werden: bei jedem Eintrag und bei _jeder_ Suche.
Dazu ist der Komfort des oben beschriebenen Primitivstindexes nicht sehr sonderlich, da würden sich mit Sicherheit alle beschweren.
der deckt aber m.E. 90% aller Abfragen ab, für den Rest braucht es noch den 2. Suchschritt zum Ausfiltern. (schätze weitere 9% suchen nach Phrasen wie "meines Erachtens")
Da nützen Schätzwerte wenig, das sollte zumindest mit etwas Statistik gestützt werden.
Aber wie Du selber schon herausgefunden hast: das funktioniert nicht nur mit Zeichenketten nicht, sondern erfordert auch, das alle die gleiche Rechtschreibung beachten.
Nein, eine simple Wortindizierung bringt es einfach nicht.
so short
Christoph Zurnieden