bernd: encoding, Browserverhalten, UTF-8/UTF-16

Beitrag lesen

Hallo Gunnar,

//Datei wird nicht iso-8859-1 kodiert abgespeichert (Unicode).

Was heißt „Unicode“? Das ist keine Codierung.

Entschuldige meine Unaufmerksamkeit. Ich meinte das "Unicode", so wie
es die meisten verstehen und handhaben, also 16 Bit für ein Zeichen
ohne Surrogate. Der Ultra Edit bietet eine Konvertierung von ASCII
nach Unicode an, womit natürlich keine Kodierung von Unicode
(UTF-x) gemeint ist, sondern einfach nur 16 Bit / Zeichen.
Wenn in der MSDN von Unicode die Rede ist, dann meinen die auch
16 Bit (wchar_t), was ja auch nicht richtig ist, da die Größe von
wchar_t nicht unbedingt 16 Bit sein muss. Wie auch immer, ich meinte
halt 16 Bit / Zeichen.

Im Grunde ging es mir aber nur darum, das Dokument falsch kodiert
abzuspeichern und das Verhalten der Browser zu beobachten bzw.
festzustellen, dass die Kodierung eines Dokumentes schon
vorher grob ermittelt werden muss (BOM oder ähnliches) und dass
anschließend die Kodierung mit der Angabe in der Deklaration
verglichen werden muss. Ich war mir einfach nicht klar darüber, wie
das mit der Erkennung der Kodierung abläuft, wenn ein Parser das
Dokument einliest.

Danke für deine Erklärung und den guten Links.
bernd