Moin!
Geschäftlich tauschen wir bereits mit einigen Partnern XML-Datenströme aus. Dabei verwenden wir den Encoding-Typ "windows-1252". Ich denke, dies entspricht der MicroSoft Codepage CP1252, die ein Teil der Windows Glyph List (WGL) 4 ist.
Die Windows-Codepage 1252 ist ein 8-Bit-Zeichencode von 0x00 bis 0xFF. Dass diese Zeichen in der WGL 4 enthalten sind, ist nett, aber es gibt trotzdem keine wesentliche Übereinstimmung im Zeichencode.
Nun sind wir allerdings von einem anderen Partner gebeten worden, den Encoding-Type "UTF-8" zu verwenden.
UTF-8 ist im Vergleich zu Windows-1252 etwas komplett anderes - vielleicht mit Ausnahme der Zeichencodes von 0x00 bis 0x7F.
Es stellt für uns kein Problem dar, unsere Anwendungen entsprechend umzustellen. Jedoch sind wir uns nicht sicher, ob diese dann noch reibungslos laufen.
Das wäre zu prüfen - sowohl bei euch, als auch bei den derzeit importierenden Partnern.
Irgendwo hier im Web habe ich gefunden, daß WGL4 eine Untermenge von UTF-8 sein soll. Stimmt Ihr mir da zu? Schlußfolgere ich da richtig, daß demnach unsere Anwendungen nicht auf die Nase fallen dürften, wenn wir sie auf »encoding="UTF-8"« umstellen?
WGL 4 ist in der Tat eine Untermenge von Unicode-Zeichen, welche dankenswerterweise die gleichen Codepoints verwenden. UTF-8 ist eine von verschiedenen binären Darstellungsarten für diese Codepoints. Windows-1252 verwendet aber komplett andere Binärcodes für diese Zeichen und kann aufgrund der Begrenzung als 8-Bit-Codetabelle auch nur 256 verschiedene Zeichen darstellen, also gegenüber Unicode oder WGL 4 nur einen sehr begrenzten Bereich.
- Sven Rautenberg