Don P: UTF-8 Zeichen umwandeln

Beitrag lesen

Hallo,

Aber es scheint so, als ob jedes dieser Zeichen mit dem Präfix "u8" beginnt, und danach zwei Hexzahlen mit den in UTF-8 verwendeten Bytes folgen.

Hab ich jetzt nicht explizit geprüft [...]

Aber ich. Es ist tatsächlich so, jedenfalls für das "ä" und das "ü".

Am einfachsten ginge es wohl mit einem Perl-Script, das solche Codes wieder in "echte" Bytes zurückverwandelt.

Leider ist die Länge in Bytes von UTF-8-codierten Zeichen variabel, d.h. man kann sich nicht darauf verlassen, das auf "u8" immer genau 4 Bytes für zwei Hexzahlen folgen, es könnten auch mal 6 Bytes oder mehr sein. Das kommt darauf an, ob nur normaler deutscher Text vorkommt, oder auch mal chinesische oder sonstwie exotische Zeichen.

Wie viele Bytes es jeweils sind, ist aber eindeutig: Alle Hex-Codes, die zum UTF-8-Zeichen gehören, sind größer als 7Fh.

Gruß, Don P