Moin!
[...] weil die durch UTF-8 entstehenden Bytecodes zum einen eben
immer 8-Bit-Einheiten sind (von denen eine, zwei, drei oder vier
zu einem Unicode-Zeichen zusammengehören),Falsch. 1 bis 6 Byte ergeben eine Unicode-Sequenz.
Wenn wir von UTF-8 reden, ist noch 1 bis 4 Byte korrekt. Ich hatte gerade vor zwei Tagen in das Dokument von unicode.org geschaut.
Bei UTF-16 sind es, je nach Zeichen, übrigens 2 oder 4 Byte. UTF-32 ist dagegen wirklich langweilig. :)
Wieso du auf 1-6 Byte kommst, würde mich interessieren.
- Sven Rautenberg