Gunnar Bittersmann: Probleme mit der Darstellung von Kodierungen

Beitrag lesen

@@hotti:

nuqneH

Du möchtest ein GURMUKHI LETTER BHA als Numerische Zeichenreferenz ★ darstellen. Dazu muss vor dem HTML ein entsprechender HTTP-Header

Content-Type; charset=utf-8

gesendet werden.

Du erzählst Unsinn.

Die Verwechslung von hexadezimalen und dezimalen numerischen Zeichenreferenzen ist dabei noch der kleinere.

„Der Dokument-Zeichensatz oder Basis-Zeichensatz von XML und HTML (ab Version 4.0) ist das Universal Character Set (UCS) […] Das bedeutet nicht, dass alle HTML- und XML-Dokumente als Unicode codiert werden müssen […]“ [qa-doc-charset]

Hast du immer noch nicht den Unterschied zwischen Zeichensatz und Zeichencodierung verstanden?

Lass dir das bitte nochmal auf der Zunge zergehen: „Jedes Unicode-Zeichen lässt sich in XML oder (X)HTML durch ein Zeichen-Escape darstellen (maskieren); in diesem kommen dann ausschließlich ASCII-Zeichen vor. […] Escapes können nützlich sein, um Zeichen zu repräsentieren, die von der für das Dokument gewählten Zeichencodierung nicht unterstützt werden, z.B. um chinesische Zeichen in einem ISO-8859-1-codierten Dokument zu repräsentieren.“ [qa-escapes]

(Aber natürlich gilt: „Man sollte sich zunächst aber fragen, warum man nicht die Zeichencodierung ändert und eine verwendet, die alle im Dokument vorkommenden Zeichen abdeckt (wie UTF-8).“ [ibid.])

Qapla'

--
Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
(Mark Twain)