Der Martin: Sprache erkennen

Beitrag lesen

Hallo,

eine Bekannte von mir hat arge Probleme das Word "nicht" andauernd falsch zu tippen, wenn sie recht schnell schreibt. nihct, nicth, usw.

ja, genau diese Buchstabenfolge ist bei mir auch ein häufiger Kandidat für Tippfehler. Besonders die Variante "nihct" kommt bei mir oft vor. Interessant finde ich in dem Zusammenhang, dass mir solche Tippfehler, die durch feinmotorische Pannen der Finger entstehen, bei englischer Sprache wesentlich seltener passieren. Anscheinend ist das Tatsaturlayout auf Buchstabensequenzen wie "ight" oder "the" besser abgestimmt als auf die deutschen Kombinationen wie etwa "icht".

Und den Tippfehler beim Wort "Tastatur" im obigen Absatz lasse ich bewusst stehen - das ist nämlich auch einer, der mir häufiger passiert.

Für anderssprachige Zitate müsste man wohl einen Parser o.ä. heran ziehen.

Oder davon ausgehen, dass fremdsprachige Zitate nur einen geringen Prozentsatz des gesamten Textes ausmachen, der das Ergebnis zwar ein wenig verschmiert, also unscharf macht, aber nur geringfügig verändert.

Den Tippfehlern kommt man annähernd auf die schliche, wenn man zum einen die Anzahl der verschiedenen Buchstaben vergleicht und eventuell auch noch die Levenstein-Distanz berücksichtigt.

Nein. Wie die beiden Folgeposter schon gezeigt haben, muss man zuerst die Sprache kennen, um von der Schreibweise auf die Aussprache schließen zu können, also ein klassisches Henne-Ei-Problem. Und selbst mit Kenntnis der Sprache geht es nicht immer gut.

Oder (wie es Google macht, IIRC) erstmal das Wort in Lautschrift umwandeln und dann das korrekt geschriebene Wort ermitteln und dann damit durchlaufen.

Das erscheint mir doch weit hergeholt. Ich vermute, die Fehlertoleranz bei der Eingabe rührt eher daher, dass Google parallel mehrere leicht veränderte Varianten der Eingaben sucht, und bei einer nennenswerten Trefferquote "neben der Spur" die allseits bekannte Frage einblendet: "Did you mean ..."

Wenn die Fehlerquoten der verschiedenen Sprachen zu nah bei einander liegen, könnte man doch eigentlich den Accept-Language hinzuziehen oder? Ich meine die meisten werden wohl in den Browser in ihrer Muttersprache eingestellt haben und wahrscheinlich auch in der (oder englisch) schreiben.

Das fällt aus, wenn man, wie im OP beschrieben, "Content schon vorliegen hat".

Ciao,
 Martin

--
Lieber eine Stumme im Bett, als eine Taube auf dem Dach.
Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(