Kodierungsformat von MudGuard, 03.02.2005 00:51

Beitrag lesen

Kodierungsformat

MudGuard Homepage des Autors 03.02.2005 00:51

sonstiges

Hi,

Ein in UTF-8 kodiertes Zeichen kann 1 bis 6 (nicht 4! Das ist ein Fehler,
der ISO-Standard spricht eindeutig von 6) Byte belegen.
RFC 3629 beschränkt die Bytes aber nur auf vier Bytes (»Octets«), wenn ich mich recht erinnere, um dieselbe Menge an Zeichen wie UTF-16 zu erreichen. Deswegen wahrscheinlich dieses häufige Mißverständnis.

Nur mal so als Idee: sind da vielleicht nur ältere Versionen des Unicode berücksichtigt? Bei denen es noch nicht so viele Code Points gab wie im aktuellen 4.0.1?

cu,
Andreas

--
Warum nennt sich Andreas hier MudGuard?
Schreinerei Waechter
Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

MudGuard: Kodierungsformat

Beitrag lesen

Kodierungsformat

Kodierungsformat

Unicode: Erkennen der Kodierung anhand des BOMs

Woher kommt der Salat?