MudGuard: Kodierung im Windows Notepad

Beitrag lesen

Hi,

UTF-8 schwankt zwischen 1 und 6 Byte.
Huch? Und ich dachte, die 8 stünde hier für 8bit - zur Unterscheidung von UTF-16 mit 16bit.

Wie kodierst Du die vielen Tausend Zeichen, die Unicode enthält, in 8 Bit (damit sind ja nur 256 verschiedene Bit-Kombinationen möglich)?
Die (derzeit?) höchste Zeichennummer ist 0x10FFFD - das ist nicht mal in 16 Bit direkt kodierbar.

Die 8 in UTF-8 steht dafür, daß die kleinste Einheit aus 8 Bit besteht, nicht dafür, daß für jedes Zeichen genau 8 Bit zur Verfügung stehen.

Bei UTF-16 besteht die kleinste Einheit aus 16 Bit - Zeichen bestehen also (theoretisch) aus 16, 32, 48, 64 ... bits - praktisch kommen meines Wissens derzeit nur 16 und 32 bit (also 2 bzw. 4 "Bytes" vor) - wobei die Zeichen mit 32 bits sehr selten genutzt werden dürften, so daß im Normalfall die Gleichung 1 Zeichen = 2 Byte stimmen dürfte (wenn man von BOM absieht).

cu,
Andreas

--
Warum nennt sich Andreas hier MudGuard?
Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.