suit: Worthäufigkeit in aus einem Fließtext bestimmen

Beitrag lesen

Hast du eine "Liste" mit Wörtern pro Sprache angelegt?

Ja - und es kommen ständig neue dazu.

Dürften nicht wenige Worte sein in Deutsch, in Englisch vermutlich ein paar weniger.

Das Ganze ist sicher noch weit von der "Marktreife" entfernt - aktuell hat das deutschsprachige Stopwords-File 190 Einträge - die Liste ist selbst zusammengetragen, aber sicher weit unter dem, was notwenig wäre - dennoch hat sie teilweise bedeutend mehr Einträge als diverse Stopwordslisten, die man im Internet so findet.

Dennoch ist das ein fast unlösbares Problem, auch wenn man mit "vollständigen" stopwords-Listen arbeitet.

1: "Ich soll das nicht tun."
2: "Das Soll ist erreicht."
3: "Soll ich das tun?"

Erste Möglichkeit: Stopword ist "soll" und wird case-insenstive entfernt, damit wäre 2 ein false positive.

Zweite Möglichkeit: stopword ist "soll" und case-senstive, damit würde #3 bleiben - ebenfalls ein false positive.

Man müsste extrem viele Regeln einbauen, die das alles beachten - und besonders bei der deutschen Sprachen mit all den Sonderregelungen (z.B. bei Flexionen oder Kasus) ist das eine "Lebensaufgabe" ;)