Gunnar Bittersmann: Webseite auf Chinesisch

Beitrag lesen

Felix,

dass das HTML-Dokument eine bestimmte Angabe für den verwendeten Zeichensatz braucht

Der verwendete Zeichensatz ist immer UCS.

„Der ASCII-Zeichensatz reicht für ein globales Informationssystem wie das Web nicht aus, deswegen nutzt HTML das so genannte Universal Character Set (UCS), einen viel umfangreicheren Zeichensatz, definiert in [ISO10646]. Dieser Standard definiert einen Vorrat von Tausenden von den Völkern der ganzen Welt verwendeten Zeichen.
Der in [ISO10646] definierte Zeichensatz ist Zeichen für Zeichen äquivalent zu Unicode ([UNICODE]).“ [HTML401 §5.1]

Der Client braucht vom Server die Angabe der verwendeten Zeichencodierung.

Diese Angabe sitzt in einem Meta-Tag.

… und wird dummerweise evtl. vom Server überschrieben. Die Angabe im HTTP-Header hat Vorrang.

(für europäische Zeichen nimmt man sinnvollerweise "ISO-8859-1").

Warum sollte das sinvoll sein?

Mit ISO 8859-1 lässt sich kein ą codieren. (Polen liegt in Europa.)
Mit ISO 8859-1 lässt sich kein α codieren. (Griechenland liegt in Europa.)
Mit ISO 8859-1 lässt sich kein б codieren. (Russland*, Ukraine, Serbien liegen in Europa.)
Mit ISO 8859-1 lässt sich kein ğ codieren. (Türkei* liegt in Europa.)
Last but not least:
Mit ISO 8859-1 lässt sich kein „ codieren. (Deutschland liegt in Europa.)

Europa reicht nicht bis zum Eisernen Vorhang, sondern bis zum Ural.

Gunnar

* partiell

--
“I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)