Hi Christoph,
nur zur Ergänzung:
Dur klapperst alles Dateien ab, sammelst die darin vorhandenen Wort (behandelst die etwas, z.B. durch tolower(), Stemming o.ä.) und packst alles in eine einzige Liste, in der für jedes Wort das Vorkommen aufgelistet wird.
Mit dem Suchwort "tokenizer" findet der Ausgangsposter leicht vorgefertigte Tools zur Erzeugung der Wortlisten.
Viele Grüße
Mathias Bigge