* Erstelle ein Histogramm der Buchstaben-Häufigkeiten. Ich vermute, dass das
einen Rückschluss auf die Sprache zulässt, zumindest Wahrscheinlichkeiten
für Sprachen.* Modifiziere die obige Idee, erstelle das Histogramm aber nicht nach einzelnen
Buchstaben, sondern nach typischen Buchstabengruppen.* Durchsuche den Text nach bestimmten, für eine Sprache charakteristischen
kurzen Wörten wie "sich", "und", "ein", "the", "but", "sans", "alors", ...* Lass ein Dictionary mit verschiedenen voreingestellten Sprachen auf den Text
los und schau nach, bei welcher Voreinstellung die wenigsten Fehler auftreten.Das wären zumindest mal ein paar Ansätze, die mir spontan einfallen.
Das werden wohl auch die besten dafür sein.
Allerdings hat man da ein ähnliches Problem wie bei regulären Ausdrücken
Man stelle sich vor das Zitat im Zitat im Zitat wäre in einer anderen Sprache.
Desweiteren die stellen Tippfehler wohl auch eine relativ große Fehlerquelle dar, eine Bekannte von mir hat arge Probleme das Word "nicht" andauernd falsch zu tippen, wenn sie recht schnell schreibt. nihct, nicth, usw.
Für anderssprachige Zitate müsste man wohl einen Parser o.ä. heran ziehen.
Den Tippfehlern kommt man annähernd auf die schliche, wenn man zum einen die Anzahl der verschiedenen Buchstaben vergleicht und eventuell auch noch die Levenstein-Distanz berücksichtigt.
Oder (wie es Google macht, IIRC) erstmal das Wort in Lautschrift umwandeln und dann das korrekt geschriebene Wort ermitteln und dann damit durchlaufen.
Ouh, und warum ich eigentlich antworten wollte, jetzt aber fast wieder vergessen hab:
Wenn die Fehlerquoten der verschiedenen Sprachen zu nah bei einander liegen, könnte man doch eigentlich den Accept-Language hinzuziehen oder? Ich meine die meisten werden wohl in den Browser in ihrer Muttersprache eingestellt haben und wahrscheinlich auch in der (oder englisch) schreiben.
MfG
bubble
If "god" had intended us to drink beer, he would have given us stomachs. - David Daye