Henryk Plötz: Gibt es hier Unicode Spezialisten?

Beitrag lesen

Moin,

Was heißt eine Seite ist im Unicode Format?

Das die Zeichen, Zahlen und Buchstaben in der Seite nach einem Unicode-Schema (en)codiert sind.

Ich glaube es ist dem Verständnis nicht unbedingt zuträglich von einem "Unicode-Format" zu reden. Unicode ist eine überdimensionale Zeichentabelle (und ein bisschen mehr) aber an sich kein Format. Das einzige was ich als 'Unicode-Format' durchgehen lassen würde, wäre ein Array von vorzeichenlosen 32-Bit-Integern.

Es hilft meiner Meinung nach, sich immer vor Augen zu führen dass Unicode einfach eine Tabelle ist die allen möglichen Zahlen Zeichen zuweist (ok, das ist in Wirklichkeit noch etwas komplizierter) und man vor sich immer irgendeine Kodierung hat - sei es US-ASCII, ISO-8859-1, UTF-8 oder UCS-4 (wobei von den genannten nur die letzten beiden den direkten Zugriff auf den vollen Zeichenvorrat bieten) - und diese Kodierung irgendwie die Folge von Bytes auf Zahlen (Unicode-Codepoints) abbildet.

"The Unicode Standard uses 8-bit code units in the UTF-8 encoding form, 16-bit code units in the UTF-16 encoding form, and 32-bit code units in the UTF-32 encoding form"

Das beduetet, dass ein Zeichen in UFT-8 8-bit Länge hat. Wie diese Zeichen an einem Rechner dargestellt werden, ist eine andere Frage.

Nein, "8-bit code units" heisst: die Länge eines Zeichens ist immer ein vielfaches von 8 Bit, dito für 16 Bit.

--
Henryk Plötz
Grüße aus Berlin
~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~