Moin Michael und Moin Forum,
Allerdings wird der Index auf diese Weise dann
trotzdem insgesamt *sehr* viel größer als bisher. Denn das Format (und damit das Volumen) eines Indexeintrages ändert sich ja zunächst einmal nicht, und ein Posting mit 200 Worten kann (und sollte, wenn die Hash-Funktion etwas taugt!) sehr wohl simultan in 200 verschiedenen Indexdateien eingetragen werden!
Der Index wird dann also um Faktor 200 größer, und der Indexer wird wesentlich langsamer - das ist der Preis für die schnellere Suche. (Haben wir 8 GB auf der Platte verfügbar? Tendenz steigend! Die Profis haben natürlich fette Server ...)
Das verstehe ich jetzt aber nicht so ganz: Es sollen ja nicht mehr die kompletten Postings abgelegt werden sondern nur noch links darauf. Eine Indexdatei könnte z.B. wie folgt aussehen:
webserver, 1314, a1
webserver, 4234, a1
webserver, 4234, a2
webserver, 4234, a7
webserver, 30234, a4
nappsülze, 24542, a1
...
also: { Begriff, Nummer der Archivdatei, Sprungmarke (Anker) }
(Wobei hier vorausgesetzt wurde, daß "nappsülze" zufällig den gleichen Hash-Wert
bekommt wie "webserver" ;-))
Wenn weitere Dateien ins Archiv hinzugenommen werden, reicht es völlig aus,
die jeweiligen Index-Dateien im 'Append'-Modus zu öffnen und die neuen Einträge
hinten dranzuhängen. Also nix mit Index jedesmal komplett neu generieren...
Die 10000 (oder wieviele auch immer) Indexdateien werden natürlich etwas mehr Platz beanspruchen als die alte Indexdatei - Faktor 3-4 dürfte es schon sein, aber Faktor 200 scheint mir etwas zu hoch gegriffen...
Bis dannundwann!
Andreas