Hi,
regelmäßigen Beugungen reicht es einfach bestimmte Endungen zu
streichen. (e, en ,er,...)Das zeig mir doch bitte mal, wie du das machen willst ;-)
wie gesagt, übliche Endungen streichen.
Sorry, aber das halte ich fuer mehr als unrealistisch. Das zu
automatisieren birgt ziemliche Risiken, da muesste man wenn dann schon
von Hand ran.
Kleine Argumentationshilfe:
Es gibt tatsächlich Regeln, die es ermöglichen den Wortstamm herauszufinden. Das geht sogar automatisch, wenn auch nicht vollständig, da es ja immer einige Ausnahmen gibt, aber das spielt hier keine Rolle. Nun hast Du aber ein kleines Problem in allen natürlich gewachsenen Sprachen mit Affix-Grammatik: je nach Wortbedeutung gilt eine unterschiedliche Regel. Je nachdem, ob es ein Substantiv ist, ein Verb oder ein Adjektiv; männlich, sächlich oder weiblich ist; viele oder nur einer betroffen sind (Regeländerung aus dem Kontext heraus!) usw usf. Diese Wortbedeutungen hast Du bei der Spracherlernung _auswendig_ gelernt, dafür gibt es keine Regel. Deshalb ist vollständig automatisiertes Stemming ohne Lexikon nicht möglich.
BTW: so ein Lexikon ist bei Ispell übrigens mit dabei ...
Nein, setz Dich wieder hin, ich weiß, was das für ein Aufwand wäre und hat auch sowieso nix mit dem Backend zu tun, wäre ein Plugin für's Formular, für's Frontend also.
so short
Christoph Zurnieden