Hallo,
ich habe Content vorliegen, bei dem automatisiert erkannt werden soll, ob es ein deutscher Text ist. Ich habe mir dazu eine kleine Funktion gebastelt, die auf regex und gängigen Begriffen basiert. Allerdings ist die nicht ganz optimal, manche Texte werden nicht erkannt. Kennt jemand eine Standardlösung für dieses Problem?
nein, aber ich könnte mir verschiedene Ansätze vorstellen.
* Erstelle ein Histogramm der Buchstaben-Häufigkeiten. Ich vermute, dass das
einen Rückschluss auf die Sprache zulässt, zumindest Wahrscheinlichkeiten
für Sprachen.
* Modifiziere die obige Idee, erstelle das Histogramm aber nicht nach einzelnen
Buchstaben, sondern nach typischen Buchstabengruppen.
* Durchsuche den Text nach bestimmten, für eine Sprache charakteristischen
kurzen Wörten wie "sich", "und", "ein", "the", "but", "sans", "alors", ...
* Lass ein Dictionary mit verschiedenen voreingestellten Sprachen auf den Text
los und schau nach, bei welcher Voreinstellung die wenigsten Fehler auftreten.
Das wären zumindest mal ein paar Ansätze, die mir spontan einfallen.
Ciao,
Martin
Lieber arm dran als Arm ab.
Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(