Der Martin: Kodierung im Windows Notepad

Beitrag lesen

Hallo,

Wie kodierst Du die vielen Tausend Zeichen, die Unicode enthält, in 8 Bit (damit sind ja nur 256 verschiedene Bit-Kombinationen möglich)?
Die (derzeit?) höchste Zeichennummer ist 0x10FFFD - das ist nicht mal in 16 Bit direkt kodierbar.

Deswegen hatte ich auch bisher vermutet, UTF-8 sei mit 8bit pro Zeichen eine Untermenge von Unicode.

Die 8 in UTF-8 steht dafür, daß die kleinste Einheit aus 8 Bit besteht, nicht dafür, daß für jedes Zeichen genau 8 Bit zur Verfügung stehen.

Aha, danke!

Bei UTF-16 besteht die kleinste Einheit aus 16 Bit - Zeichen bestehen also (theoretisch) aus 16, 32, 48, 64 ... bits - praktisch kommen meines Wissens derzeit nur 16 und 32 bit (also 2 bzw. 4 "Bytes" vor) - wobei die Zeichen mit 32 bits sehr selten genutzt werden dürften, so daß im Normalfall die Gleichung 1 Zeichen = 2 Byte stimmen dürfte (wenn man von BOM absieht).

Okay, das habe ich soweit begriffen.
Aber ich habe auch nie behauptet, dass ich über Unicode Bescheid weiß. Im Gegenteil, das Thema ist für mich noch weitgehend mysteriös.
Danke für die kleine Nachhilfe,

Martin