Tom: UTF-8 Codierung erkennen

Beitrag lesen

Hello Gunnar, Dedlfix, Sven,

Man kann Ausschlußverfahren anwenden: Wenn eine Bytefolge nicht in ein Codierschema paßt, weil Bytes oder Kombinationen von Bytes vorkommen, die es dort nicht gibt, dann kann es das Schema nicht sein - aber noch jedes andere.

Eventuell ließen sich auch statistische Maßnahmen anwenden, die den Inhalt analysieren und mit Wahrscheinlichkeiten operieren - das ist dann aber von "Sicherheit" weit entfernt.

Es geht um Texte, deren Codierung leider nicht immer geklärt ist.
Man müsste also mehrere Passagen daraus ausschneiden und diese einzeln prüfen.

Wie müsste ich denn schneiden? Ist das Zeilenende-Zeichen in allen üblichen Codierungen (im Prinzip sind es nur ISO8859-X, UTF-8, Windows 1252, ASCII+ CP-437, ASCII+ CP-850) identisch entweder "\r\n" oder "\n" oder "\r" ?

In den Ein-Byte-Codes dürfte es ja eigentlich keine Schwierigkeiten geben und bei UTF-8 kann es bei längeren Sequenzen ja auch nicht in der Sequenz vorkommen. Oder habe ich was übersehen?

Man könnte also "Zeilen" in den Codierungen erkennen?

Liebe Grüße aus Syburg bei Dortmund

Tom vom Berg

--
Nur selber lernen macht schlau
http://bergpost.annerschbarrich.de