Hallo Rolf,
da der Zeichensatz von XML-Dokumenten (wie auch von HTML-Dokumenten) immer Unicode ist
Sein sollte. Leider treffen sich da Anspruch und Wirklichkeit nicht.
Zumindest habe ich schon genug XML Dokumente mit einem Einbyte Encoding gesehen
das ist kein Widerspruch. Du schmeißt immer noch Zeichensatz und Zeichencodierung durcheinander. Ich habe auch Jahre gebraucht, um endlich den Unterschied zu begreifen.
Angenommen, du hast ein Dokument in ISO-8859-1. Das ist immer noch Unicode (bzw. eine Untermenge davon). Die Zeichencodierung ISO-8859-1 legt für insgesamt 256 Zeichen aus dem Unicode-Zeichensatz eine Codierung fest, die vielen tausend anderen Unicode-Zeichen werden nicht behandelt.
Edit: in der Spec steht
Although an XML processor is required to read only entities in the UTF-8 and UTF-16 encodings, it is recognized that other encodings are used around the world, and it may be desired for XML processors to read entities that use them
Also mit anderen Worten: Die Spec gibt eigentlich vor, dass nur UTF-8 oder UTF-16 verwendet werden sollte. XML-Parser sollten dennoch in der Lage sein, auch andere Codierungen zu verarbeiten.
Einen schönen Tag noch
Martin
Was ist der schnellste Weg von einem Suchtreffer zum nächsten?
Ein Googlehupf.