hi,
Kennt ihr zufällig ein geeignetes Programm oder Script?
Naja, sowas ähnliches hab ich schon mal gemacht. Allerdings hatte ich dabei den Index der html-Doks schonmal als Textdatei vorliegen. Auf jeden Fall dürfte Dir das Perl Modul "HTML::TagParser" weiterhelfen, damit kriegst Du z.B. alles was zwischen <body> und </body> steht.
Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash. Und mit einem hash-Slice entfernst Du mit einem Schlag Stop-Worte wie "der die das usw". Solche Stopwort-Listen findest Du auch im Internet.
Hotte
--
Wenn der Kommentar nicht zum Code passt, kann auch der Code falsch sein.
Wenn der Kommentar nicht zum Code passt, kann auch der Code falsch sein.