Indizierung von HTML Dokumenten von hotti, 01.04.2009 14:09

Indizierung von HTML Dokumenten

hotti Homepage des Autors 01.04.2009 14:09

datenbank

hi,

Kennt ihr zufällig ein geeignetes Programm oder Script?

Naja, sowas ähnliches hab ich schon mal gemacht. Allerdings hatte ich dabei den Index der html-Doks schonmal als Textdatei vorliegen. Auf jeden Fall dürfte Dir das Perl Modul "HTML::TagParser" weiterhelfen, damit kriegst Du z.B. alles was zwischen <body> und </body> steht.

Um einzelne Worte zu bekommen, splitte den Text nach \s+. Duplikate haust Du dann raus mit einem hash. Und mit einem hash-Slice entfernst Du mit einem Schlag Stop-Worte wie "der die das usw". Solche Stopwort-Listen findest Du auch im Internet.

Hotte

--
Wenn der Kommentar nicht zum Code passt, kann auch der Code falsch sein.

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

hotti: Indizierung von HTML Dokumenten

Beitrag lesen

Indizierung von HTML Dokumenten

Indizierung von HTML Dokumenten