Tom2: Bits und Bytes in Unicode

Beitrag lesen

Hallo Konrad!

Das ist die UTF-16-Kennung für die little-endian-Bytereihenfolge, nennt sich BOM (= Byte Order Mark).

Little-Endian-Bytereihenfolge, das kommt mir bekannt vor. Das heisst doch, dass FF FE im Hex-Editor für FEFF in hexadezimaler Darstellung steht, oder?
BOM, das muss ich mir merken.

Was mich aber richtig stutzig machte ist, das trotz UTF-8 pro Zeichen zwei Bytes verwendet werden. Sollte das nicht anders sein?

Siehe oben: laut BOM verwendest Du UTF-16, nicht UTF-8.

Dacht' ich's doch! Aber bereits das ASP-Skript generiert UTF-16-Code und nicht, wie per CodePage 65001 verlangt, UTF-8-Code. Ich werde mal Google zu diesem Phänomen befragen - Und natürlich 'von Hand' konvertierte XML-Dokumente für meine XPath-Tests verwenden. Ich hoffe, ich kann nun auch Elementnamen und nicht nur Wildcards verwenden ;-). *ausprobier*... Nein, das funktioniert immer noch nicht.

Kannst du mir vielleicht sagen, weshalb der XPath-Ausdruck '/*/*/*' problemlos funktioniert, während der genauere Ausdruck '/*/*/Command_Code' nichts zurück liefert? Auch '//Command_Code' liefert momentan keine Elemente zurück - Ich muss das XML-File wohl mal in seine Bestandteile zerlegen...

Für genauere Ausführungen kann ich http://www.activevb.de/rubriken/kolumne/kol_20/unicode.html empfehlen.

Wow, vielen Dank! Der Artikel scheint wirklich ein wenig mehr Informationen zu beinhalten, als ich bis jetzt zu sehen bekam.

FG und besten Dank!

Tom2