Tim Tepaße: Kodierungsformat

Beitrag lesen

Hallo Christian,

Ja, das weiss ich, aber eine RFC ist kein Standard. Und die RFC weist _auch_
darauf hin, dass der Standard 6 Byte beschreibt :)

Okeh. Aus dem Anhang C.3 des Unicode Standard:
  »The definition of UTF-8 in Annex D of ISO/IEC 10646-1:2000 also allows for
  the use of five- and six-byte sequences to encode characters that are
  outside the range of the Unicode character set; those five- and six-byte
  sequences are illegal for the use of UTF-8 as an encoding form of Unicode
  characters.«

Worauf ich hinaus will: Der Unicode Standard des Unicode Konsortiums und der Standard ISO/IEC 10646-1 sind eigentlich deckungsgleich, trotzdem gibt es aber Unterschiede zwischen den beiden, auch wenn sie sehr in Abstimmung zueinander entwickelt werden. Man kann hier natürlich sikutieren, ob das Unicode Konsortium überhaupt berechtigt ist einen »Standard« herauszugeben, da es aber auf seiner Homepage nur vom Unicode Standard spricht, halte ich diesen Sprachgebrauch für zulässig. Wenn jetzt jemand von Unicode spricht, denkt man an den Unicode Standard mit seinen 2^20 + 2^16 zulässigen Zeichen, nicht unbedingt an den Standard ISO/IEC 10646 mit seine 2^31 zulässigen Zeichen.

Tim