Felix,
dass das HTML-Dokument eine bestimmte Angabe für den verwendeten Zeichensatz braucht
Der verwendete Zeichensatz ist immer UCS.
„Der ASCII-Zeichensatz reicht für ein globales Informationssystem wie das Web nicht aus, deswegen nutzt HTML das so genannte Universal Character Set (UCS), einen viel umfangreicheren Zeichensatz, definiert in [ISO10646]. Dieser Standard definiert einen Vorrat von Tausenden von den Völkern der ganzen Welt verwendeten Zeichen.
Der in [ISO10646] definierte Zeichensatz ist Zeichen für Zeichen äquivalent zu Unicode ([UNICODE]).“ [HTML401 §5.1]
Der Client braucht vom Server die Angabe der verwendeten Zeichencodierung.
Diese Angabe sitzt in einem Meta-Tag.
… und wird dummerweise evtl. vom Server überschrieben. Die Angabe im HTTP-Header hat Vorrang.
(für europäische Zeichen nimmt man sinnvollerweise "ISO-8859-1").
Warum sollte das sinvoll sein?
Mit ISO 8859-1 lässt sich kein ą codieren. (Polen liegt in Europa.)
Mit ISO 8859-1 lässt sich kein α codieren. (Griechenland liegt in Europa.)
Mit ISO 8859-1 lässt sich kein б codieren. (Russland*, Ukraine, Serbien liegen in Europa.)
Mit ISO 8859-1 lässt sich kein ğ codieren. (Türkei* liegt in Europa.)
Last but not least:
Mit ISO 8859-1 lässt sich kein „ codieren. (Deutschland liegt in Europa.)
Europa reicht nicht bis zum Eisernen Vorhang, sondern bis zum Ural.
Gunnar
* partiell
“I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)