Sven Rautenberg: Japanisch mit numerischen Entities / ISO-8859-1

Beitrag lesen

Moin!

[...] weil die durch UTF-8 entstehenden Bytecodes zum einen eben
immer 8-Bit-Einheiten sind (von denen eine, zwei, drei oder vier
zu einem Unicode-Zeichen zusammengehören),

Falsch. 1 bis 6 Byte ergeben eine Unicode-Sequenz.

Wenn wir von UTF-8 reden, ist noch 1 bis 4 Byte korrekt. Ich hatte gerade vor zwei Tagen in das Dokument von unicode.org geschaut.

Bei UTF-16 sind es, je nach Zeichen, übrigens 2 oder 4 Byte. UTF-32 ist dagegen wirklich langweilig. :)

Wieso du auf 1-6 Byte kommst, würde mich interessieren.

- Sven Rautenberg