Sven Rautenberg: UTF-8 Zeichen umwandeln

Beitrag lesen

Moin!

Leider ist die Länge in Bytes von UTF-8-codierten Zeichen variabel, d.h. man kann sich nicht darauf verlassen, das auf "u8" immer genau 4 Bytes für zwei Hexzahlen folgen, es könnten auch mal 6 Bytes oder mehr sein. Das kommt darauf an, ob nur normaler deutscher Text vorkommt, oder auch mal chinesische oder sonstwie exotische Zeichen.

Aber genau das ist in den Bytes mit codiert. Ein "Folgebyte" besteht immer aus binär 10xx xxxx, während das erste Byte durch die Anzahl an 1-Bits zu Beginn die Anzahl der Folgebytes angibt. 110x = 1 Folgebyte, 1110 = 2 Folgebytes... Siehe Wikipedia et al...

- Sven Rautenberg

--
"Love your nation - respect the others."