Auge: cp1252 zu UTF-8

Beitrag lesen

Hallo

Hallo dedlfix,

e ein Editor? Weil, so wie ich es probiert habe, offensichtlich nicht.

Siehe obiges Zitat. Für Ein-Byte-Kodierungen gibt es prinzipbedingt keine Indizien. Man kann lediglich den Text analysieren, ob der sinnvoll ist.

Man kann auch nicht UTF-8 und ISO-8859-1 und ASCII voneinander unterscheiden, wenn der Text lediglich ASCII-Zeichen enthält. Er ist dann zu allen drei Kodierungen kompatibel.

Jetzt bin ich wieder verwirrt.

Ich habe doch dieses Beispiel:
Denn wenn ich eine UTF-8 Datei einlese mit folgendem Inhalt

"ßä#eöt+3#öt3+4lrägojpjö3gmrp42°^t'*"

erscheint wieder Beides: UTF-8 kodiert ISO-8859-1 kodiert

Eben, weil (ich zitiere): „Man kann auch nicht UTF-8 und ISO-8859-1 und ASCII voneinander unterscheiden, wenn der Text lediglich ASCII-Zeichen enthält. Er ist dann zu allen drei Kodierungen kompatibel.“

Die Zeichen in deiner Beispieleingabe sitzen in allen drei Kodierungen an den selben Stellen. Also ist die Eingabe in allen drei Kodierungen gültig.

Ein Editor sagt mir hier klar, das ist UTF-8.

Er hat für sich laut Programmierung diese Entscheidung getroffen.

Müsste der dann eigentlich sagen, klar, geht aber auch als ISO durch?

Warum sollte er, wenn es doch gültiges UTF-8 ist und selbiges heutzutage (mehr oder minder) Standard ist?

Weil da gibts dann Probleme, wenn ich das als ISO behandeln würde.

Es gibt keine Probleme mit gültigem ISO-8859-1, wenn gültiges ISO-8859-1 als ISO-8859-1 behandelt wird.

Tschö, Auge

--
Ein echtes Alchimistenlabor musste voll mit Glasgefäßen sein, die so aussahen, als wären sie beim öffentlichen Schluckaufwettbewerb der Glasbläsergilde entstanden.
Hohle Köpfe von Terry Pratchett