hotti: Indizierung von HTML Dokumenten

Beitrag lesen

hi,

Kennt ihr zufällig ein geeignetes Programm oder Script?

Naja, sowas ähnliches hab ich schon mal gemacht. Allerdings hatte ich dabei den Index der html-Doks schonmal als Textdatei vorliegen. Auf jeden Fall dürfte Dir das Perl Modul "HTML::TagParser" weiterhelfen, damit kriegst Du z.B. alles was zwischen <body> und </body> steht.

Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash. Und mit einem hash-Slice entfernst Du mit einem Schlag Stop-Worte wie "der die das usw". Solche Stopwort-Listen findest Du auch im Internet.

Hotte

--
Wenn der Kommentar nicht zum Code passt, kann auch der Code falsch sein.