Hast du eine "Liste" mit Wörtern pro Sprache angelegt?
Ja - und es kommen ständig neue dazu.
Dürften nicht wenige Worte sein in Deutsch, in Englisch vermutlich ein paar weniger.
Das Ganze ist sicher noch weit von der "Marktreife" entfernt - aktuell hat das deutschsprachige Stopwords-File 190 Einträge - die Liste ist selbst zusammengetragen, aber sicher weit unter dem, was notwenig wäre - dennoch hat sie teilweise bedeutend mehr Einträge als diverse Stopwordslisten, die man im Internet so findet.
Dennoch ist das ein fast unlösbares Problem, auch wenn man mit "vollständigen" stopwords-Listen arbeitet.
1: "Ich soll das nicht tun."
2: "Das Soll ist erreicht."
3: "Soll ich das tun?"
Erste Möglichkeit: Stopword ist "soll" und wird case-insenstive entfernt, damit wäre 2 ein false positive.
Zweite Möglichkeit: stopword ist "soll" und case-senstive, damit würde #3 bleiben - ebenfalls ein false positive.
Man müsste extrem viele Regeln einbauen, die das alles beachten - und besonders bei der deutschen Sprachen mit all den Sonderregelungen (z.B. bei Flexionen oder Kasus) ist das eine "Lebensaufgabe" ;)