Mathias Bigge: Offline Suchmaschine für HTML-Paket

Beitrag lesen

Hi Christoph,

nur zur Ergänzung:

Dur klapperst alles Dateien ab, sammelst die darin vorhandenen Wort (behandelst die etwas, z.B. durch tolower(), Stemming o.ä.) und packst alles in eine einzige Liste, in der für jedes Wort das Vorkommen aufgelistet wird.

Mit dem Suchwort "tokenizer" findet der Ausgangsposter leicht vorgefertigte Tools zur Erzeugung der Wortlisten.

Viele Grüße
Mathias Bigge