hi!
Man könnte ja mal folgendes ausprobieren:
- das Suchskript nehmen und 90% herauslöschen (übrig bleiben Dateianschluß und
Zerlegung einer Indexzeile in Felder)- den Textinhalt jedes Indexeintrags in Worte zerlegen
- die Häufigkeit dieser Worte über einen Hash speichern
- eine Hitparade der Worte im Archiv-Index ausgeben lassen
Damit müßte man die mögliche Ersparnis einer solchen Operation messen können.
Hast Du Lust dazu, Frank? :-)
So aufwendig ist das nicht:
open FILE, "index.dat";
for <FILE>
{
my ($url, $num, $subj, $author, $date, $text) = split //;
for (split / /, $text)
{
$count{$_}++;
}
}
close FILE;
Danach kannst du den Hash %count nach den jeweiligen Werten sortieren (siehe Forumsauslese) und die Hitliste ausgeben lassen.
bye, Frank!