Sven Rautenberg: Russisch und Deutsch in einer XML-Datei?

Beitrag lesen

Moin!

Warum so kompliziert? Die UTF-8-Zeichen des Bereichs von 0x00 bis 0x7f codierst du doch auch nicht so kompliziert.

Die CDATA-Sction wird wohl trotzdem notwendig werden wg. der Sonderzeichen.

Sicher? Naja, für XML bin ich kein Experte. ;)

Btw: Was wäre denn der Vorteil von UTF-16 gegenüber UTF-8 in diesem Fall?

Ob es XML-seitig Vorteile gibt, kann ich nicht sagen. Hinsichtlich des Unterschiedes zwischen UTF-16 und UTF-8 sind aber folgende Vorteile zugunsten von UTF-16 festzuhalten:
1. Inkompatibilität zu ASCII-Editoren
2. Jedes Zeichen benötigt zwingend mindestens 16 Bit, Zeichen über 0xFFFF benötigen 32 Bit.
3. Viele Nullbytes im Datenstrom sind evtl. ganz gut komprimierbar.
4. Alle Unicode-Zeichen darstellbar (genau wie bei UTF-8).
5. Unicode-unfähige Programme (PHP 4, MySQL 4.0) könnten bei UTF-16 versagen bzw. nur eingeschränkt funktionieren.

Unter dem Strich: UTF-16 ist dann schlau, wenn man weiß, dass es schlau ist. Ansonsten ist es eher blöd.

- Sven Rautenberg