Gunnar Bittersmann: XHTML & utf-8

Beitrag lesen

Hello out there!

Das liegt daran, dass ein UTF-8-kodiertes Dokument immer auch mindestens ein gültiges ISO-8859-X Dokument ist.

Nein, das ist es nicht.

Nicht immer jedenfalls, sondern nur dann, wenn in der Oktettsequenz nur Werte kleiner als 80 (hexadazimal) vorkommen; also im Dokument nur Basic-Latin-Zeichen vorkommen. [https://forum.selfhtml.org/?t=156477&m=1018379]

Ein Browser braucht viel Intelligenz, um die ursprüngliche Kodierung zu erraten.

Warum sollte er das tun? Bei Abwesenheit jeglicher Information nimmt er ISO 8859-1 an.* Ein 'ä' in einem eigentlich UTF-8-codierten Dokument wird dann als 'ä' dargestellt. (Dieses Verhalten wird oft hier im Forum beschrieben und nachgefragt, warum das so ist.)

See ya up the road,
Gunnar

* gemäß HTTP-Spec, obwohl er es gemäß HTML-Spec nicht darf. [HTML401 §5.2.2]

--
„Wer Gründe anhört, kommt in Gefahr nachzugeben.“ (Goethe)