Anfangen könnte man damit, indem man eine Liste mit Wörtern erstellt, die gar nicht mitindiziert werden sollen (beispielsweise "und", "er", "hi", "bye", etc.), die aber aufgrund häufiger Vorkommen den Index aufblähen können.
Man könnte ja mal folgendes ausprobieren:
1. das Suchskript nehmen und 90% herauslöschen (übrig bleiben Dateianschluß und Zerlegung einer Indexzeile in Felder)
2. den Textinhalt jedes Indexeintrags in Worte zerlegen
3. die Häufigkeit dieser Worte über einen Hash speichern
4. eine Hitparade der Worte im Archiv-Index ausgeben lassen
Damit müßte man die mögliche Ersparnis einer solchen Operation messen können.
Hast Du Lust dazu, Frank? :-)