Der Martin: Sprache erkennen

Beitrag lesen

Hallo,

ich habe Content vorliegen, bei dem automatisiert erkannt werden soll, ob es ein deutscher Text ist. Ich habe mir dazu eine kleine Funktion gebastelt, die auf regex und gängigen Begriffen basiert. Allerdings ist die nicht ganz optimal, manche Texte werden nicht erkannt. Kennt jemand eine Standardlösung für dieses Problem?

nein, aber ich könnte mir verschiedene Ansätze vorstellen.

* Erstelle ein Histogramm der Buchstaben-Häufigkeiten. Ich vermute, dass das
   einen Rückschluss auf die Sprache zulässt, zumindest Wahrscheinlichkeiten
   für Sprachen.

* Modifiziere die obige Idee, erstelle das Histogramm aber nicht nach einzelnen
   Buchstaben, sondern nach typischen Buchstabengruppen.

* Durchsuche den Text nach bestimmten, für eine Sprache charakteristischen
   kurzen Wörten wie "sich", "und", "ein", "the", "but", "sans", "alors", ...

* Lass ein Dictionary mit verschiedenen voreingestellten Sprachen auf den Text
   los und schau nach, bei welcher Voreinstellung die wenigsten Fehler auftreten.

Das wären zumindest mal ein paar Ansätze, die mir spontan einfallen.

Ciao,
 Martin

--
Lieber arm dran als Arm ab.
Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(