Pryos.org: Worthäufigkeit in aus einem Fließtext bestimmen

Beitrag lesen

  • Stopwords müssen möglicherweise entfernt werden, allerdings muss dabei beachtet werden, ob es sich tatsächlich um ein Stopword der definierten Sprache handelt oder nicht. "die" ist in deutscher Sprache in Stopword, <span lang="en">die</span> in einem deutschsprachigen Text allerdings nicht.

Wie hast du das Problem gelösst? Hast du eine "Liste" mit Wörtern pro Sprache angelegt? Dürften nicht wenige Worte sein in Deutsch, in Englisch vermutlich ein paar weniger.