Antwort an „Der Martin“ verfassen

Hallo Rolf,

da der Zeichensatz von XML-Dokumenten (wie auch von HTML-Dokumenten) immer Unicode ist

Sein sollte. Leider treffen sich da Anspruch und Wirklichkeit nicht.

Zumindest habe ich schon genug XML Dokumente mit einem Einbyte Encoding gesehen

das ist kein Widerspruch. Du schmeißt immer noch Zeichensatz und Zeichencodierung durcheinander. Ich habe auch Jahre gebraucht, um endlich den Unterschied zu begreifen.

Angenommen, du hast ein Dokument in ISO-8859-1. Das ist immer noch Unicode (bzw. eine Untermenge davon). Die Zeichencodierung ISO-8859-1 legt für insgesamt 256 Zeichen aus dem Unicode-Zeichensatz eine Codierung fest, die vielen tausend anderen Unicode-Zeichen werden nicht behandelt.

Edit: in der Spec steht

Although an XML processor is required to read only entities in the UTF-8 and UTF-16 encodings, it is recognized that other encodings are used around the world, and it may be desired for XML processors to read entities that use them

Also mit anderen Worten: Die Spec gibt eigentlich vor, dass nur UTF-8 oder UTF-16 verwendet werden sollte. XML-Parser sollten dennoch in der Lage sein, auch andere Codierungen zu verarbeiten.

Einen schönen Tag noch
 Martin

--
Was ist der schnellste Weg von einem Suchtreffer zum nächsten?
Ein Googlehupf.
freiwillig, öffentlich sichtbar
freiwillig, öffentlich sichtbar
freiwillig, öffentlich sichtbar

Ihre Identität in einem Cookie zu speichern erlaubt es Ihnen, Ihre Beiträge zu editieren. Außerdem müssen Sie dann bei neuen Beiträgen nicht mehr die Felder Name, E-Mail und Homepage ausfüllen.

abbrechen