Hallo MudGuard,
das habe ich gerade wieder aufgefrischt. 3 Bytes in UTF-8 sind 16 Bit für den Codepoint.
Daraus folgt: was in UTF-8 4 Bytes braucht, liegt jenseits der BMP und braucht auch in UTF-16 4 Bytes (ein Surrogatpaar).
Ich habe keine Ahnung, ob die CJK-Schriften ihre Zeichen schwerpunktmäßig in der BMP haben.
Rolf
--
sumpsi - posui - obstruxi
sumpsi - posui - obstruxi