Christoph Zurnieden: deutsches Stemming

Beitrag lesen

Hi,

Könnte mir jemand sagen, was sich unter Schritt 3 bei o.a. Link genau verbirgt?

die Beschreibung erscheint mir ziemlich eindeutig; davon abgesehen, dass ich jetzt die Bedeutung von "R2" nicht nachgelesen habe. Könntest Du eventuell Dein Problem etwas näher erläutern?

Das Wort wird relativ willkürlich (Nein, natürlich nicht tatsächlich willkürlich, aber ich bin ja auch kein gelernter Linguistiker) in drei Teile geteilt:
R0 ist der Anfang des Wortstammes
R1 und R2 gehen bis zum Ende des Wortes, sind die Teiel, die aktiv bearbeitet werden und was da übrigbleibt, wenn überhaupt, wird an R0 wieder angehangen.
Die Reihenfolge entspricht der Leserichtung v.l.n.r., R1 und R2 überlappen und können auch 0 sein. Hier ist eine kurze aber auch bessere Beschreibung benebst Skizze.

Mein Problem ist die etwas unklare Formulierung der Beschreibung zu Schritt 3. "Ziemlich eindeutig" ist die nämlich leider nur auf den ersten Blick ;-}

end, ung
   delete if in R2
   if preceded by ig, delete if in R2 and not preceded by e

Das erste ist noch eindeutig, doch was bedeutet das Zweite?
"[^e]ig(end|ung)" oder "ig^e"? An anderer Stelle wird gesagt, das "preceded" nicht an die Grenzen von R[012] gebunden ist, d.h. kann das "[^e]" auch in R1 oder R0 sein? Dito für die anderin möglichen Kombinationen? Es sind ja insgesamt leider zuviele, um sie einfach "mal eben" durchzuprobieren. Eine gewisse Fehlertoleranz kann man ja zugestehen (muß man ja auch, da Umlaute auch als ae,oe usw geschrieben werden könnten), aber ich vermute, das es einfach zuviel an Fehlern wird, wenn ich den dritten Schritt versaue.

so short

Christoph Zurnieden