nam: automatische Silbentrennung

Beitrag lesen

Hi Gunnar

Willst du wissen, was ich von solcher automatischer Silbentrennung für die deutsche Sprache halte?
Kurze Antwort: Gar nichts.

Dann nutze sie nicht oder liefere etwas besseres!

Lange Antwort: Jedenfalls nicht mit (ausschließlich) diesem Algorithmus. Der berücksichtigt nicht, dass es im Deutschen viele zusammengesetzte Wörter gibt, die auch zusammengeschrieben werden. […]

Er trennt sehr viele Komposita besser als der wortlistenbasierte Algorithmus von Word (was kein Qualitätszeichen ist, ich weiss, aber wohl der am weitesten verbreitete). Linguistische oder phonetische Algorithmen haben es bis jetzt auch nicht in ein Endprodukt geschafft, warum wohl?

Zusammengesetzte Wörter sollten nur an den Stellen getrennt werden, wo zwei Teilwörter zusammentreffen; nicht jedoch Silbentrennung innerhalb eines Teilwortes. Also nur „Haus-esel“; nicht jedoch „Hause-sel“.

Dies «Wortfuge» ist als Trennstelle zu bevorzugen, das stimmt. Es sind aber auch alle anderen «Nebentrennstellen» erlaubt. Zum Beispiel: Sil-ben=tren-nung.
Esel darf nach aktueller Rechtschreibung nicht getrennt werden.

Es gibt einen ähnlichen Algorithmus, der gute und schlechte Trennstellen unterscheidet http://www.ads.tuwien.ac.at/research/SiSiSi/; ohne dazu passende Trennmuster nützt er mir allerdings nichts (ausserdem wir er vom Entwickler kommerziell genutzt und ist nicht frei).

Ein Algorithmus, der das nicht beachtet, ist zumindest für die deutsche Sprache recht unbrauchbar.

Der Algorithmus beachtete das schon, wenn denn ein ensprechendes Trennmuster vorhanden wäre. Die verwendeten Trennmuster basieren auf einer Liste von 380599 deutschen Wörtern bis zur Häufigkeitsklasse 18. Bis dahin wurden die Wörter bereits getrennt (http://groups.google.de/group/trennmuster-opensource). Dein Hausesel kommt aber erst in der Häufigkeitsklasse 22 vor, das heisst, er ist 2^4=16 mal seltener als ein Wort der Klasse 18. Bis auch für deinen Hausesel ein Trennmuster vorhanden ist, müssen noch rund 890'000 Wörter getrennt werden und dann die Muster neu berechnet werden.

Dein aufgeführtes Beispiel ist also kein echtes Problem für diesen Algorithmus.
(Wie lange hast du übrigens suchen müssen, bis du ein Wort gefunden hast, das falsch getrennt wird?)

Was ein echtes Problem darstellt, sind zweideutige Komposita. Das bekannteste ist Staubecken (Stau=be-cken oder Staub-ecken); wie hier getrennt werden soll, lässt sich nur aus dem Kontext bestimmen und da scheitert die heutige Informatik noch immer.

Um eine wiklich gute und fehlerfreie Silbentrennung zu erhalten, kommt man ohnehin nicht um eine manuelle (Nach-)Bearbeitung herum.

Gruss,
Mathias