Gunnar Bittersmann: Sprache erkennen

Beitrag lesen

@@Mechthild:

nuqneH

Ich habe mir dazu eine kleine Funktion gebastelt, die auf regex und gängigen Begriffen basiert.

IIRC arbeiten gängige Lösungen nicht auf Wörtern, sondern auf Heuristiken von Zeichen und Zeichenkombinationen.

So dürfte die relative Häufigkeit der einzelnen Buchstaben für jede Sprache anders ausfallen. Treffsicherer wird die Erkennung, wenn auch jeweils 2 Zeichen (die Kombination th bspw. dürfte im Englischen häufiger auftreten als in anderen Sprachen) oder 3 Zeichen betrachtet werden (die Kombination sch bspw. dürfte im Deutschen häufiger auftreten als in anderen Sprachen).

Also im eigenen Text die relativen Häufigeiten der Buchstaben und Buchstabenkombinationen aus 2, 3 Zeichen bestimmen und mit den charakteristischen Werten verschiederner Sprachen (ermittelt aus vielen Texten) vergleichen dürfte mit einiger Sicherheit die Sprache des Textes ergeben.

Qapla'

PS: Das kam heute übern Ticker: Context of Diacritics

--
„Talente finden Lösungen, Genies entdecken Probleme.“ (Hans Krailsheimer)