Hallo Christian,
Ja, das weiss ich, aber eine RFC ist kein Standard. Und die RFC weist _auch_
darauf hin, dass der Standard 6 Byte beschreibt :)
Okeh. Aus dem Anhang C.3 des Unicode Standard:
»The definition of UTF-8 in Annex D of ISO/IEC 10646-1:2000 also allows for
the use of five- and six-byte sequences to encode characters that are
outside the range of the Unicode character set; those five- and six-byte
sequences are illegal for the use of UTF-8 as an encoding form of Unicode
characters.«
Worauf ich hinaus will: Der Unicode Standard des Unicode Konsortiums und der Standard ISO/IEC 10646-1 sind eigentlich deckungsgleich, trotzdem gibt es aber Unterschiede zwischen den beiden, auch wenn sie sehr in Abstimmung zueinander entwickelt werden. Man kann hier natürlich sikutieren, ob das Unicode Konsortium überhaupt berechtigt ist einen »Standard« herauszugeben, da es aber auf seiner Homepage nur vom Unicode Standard spricht, halte ich diesen Sprachgebrauch für zulässig. Wenn jetzt jemand von Unicode spricht, denkt man an den Unicode Standard mit seinen 2^20 + 2^16 zulässigen Zeichen, nicht unbedingt an den Standard ISO/IEC 10646 mit seine 2^31 zulässigen Zeichen.
Tim