Konrad L. M. Rudolph (unauth): Bits und Bytes in Unicode

Beitrag lesen

Moin,

Zu Beginn war ich gleich etwas irritiert: Die ersten 31 Bits (bei 1 beginnend ;-) waren mit Einsen gefüllt (Hex: FF FE), was mir im Textmodus jedoch nicht angezeigt wurde. Dies scheint mir ein bei Unicode-Daten üblicher Datei-Anfang zu sein. Nur wofür ist der genau gut? Erkennt ein Programm daran das Unicode-Transformation-Format?

Das ist die UTF-16-Kennung für die little-endian-Bytereihenfolge, nennt sich BOM (= Byte Order Mark).

Was mich aber richtig stutzig machte ist, das trotz UTF-8 pro Zeichen zwei Bytes verwendet werden. Sollte das nicht anders sein?

Siehe oben: laut BOM verwendest Du UTF-16, nicht UTF-8.

Für genauere Ausführungen kann ich http://www.activevb.de/rubriken/kolumne/kol_20/unicode.html empfehlen.

lg, Konrad -

--
Der Genitiv ist des Dativs Tod