Nachdenkliches zur BOM die gar keine ist von Gunnar Bittersmann, 27.12.2017 12:01

Beitrag lesen

SELF-Forum

Nachdenkliches zur BOM die gar keine ist

Gunnar Bittersmann Homepage des Autors 27.12.2017 12:01 (Versionen)

zeichencodierung

+1 Informationen zu den Bewertungsregeln

@@pl

Der Oktettwert 61 steht in UTF-8 für den Codepoint U+0061. Wo ist da die Ungleichheit?

Das ist ja auch ASCII.

Ja, und? Deine Aussage war „Nur bei ASCII, ISO-8859-1, UTF16 und UTF32 sind die Oktettenwertigkeiten gleich dem Codepoint“ – bei UTF-8 also nicht. Ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-8 auch zutrifft; und ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-16 nicht zutrifft. Deine Aussage war also falsch.

Worauf ich hinauswollte: UTF-8 ist eine Codierung mit variabler Länge; UTF-16 ebenso.

Bei UTF-8 stimmt der Oktettwert mit dem Codepoint für die ASCII-Zeichen bis U+007F überein; bei UTF-16 gilt dies für die Zeichen der basic multilingual plane (BMP) bis U+FFFD.

Nun, UTF16 heißt 16 Bit, kann also normalerweise nur Zeichen der Codepoints bis 16 Bit kodieren

Falsch. UTF steht für: Unicode Transformation Format. Alle UTF-Zeichencodierungen decken den gesamten Unicode-Bereich ab, nicht nur die BMP.

Aber: Es gibt eine Regelung, welche die Kodierung auch höherwertiger Codepoints ermöglicht.

Diese Regelung nennt sich: Zeichencodierung. Ohne Wenn und Aber.

LLAP 🖖

--
“When UX doesn’t consider all users, shouldn’t it be known as ‘Some User Experience’ or... SUX? #a11y” —Billy Gregory

Beitrag melden

+1 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Gunnar Bittersmann: Nachdenkliches zur BOM die gar keine ist

Beitrag lesen

Nachdenkliches zur BOM die gar keine ist

Nachdenkliches zur BOM

Nachdenkliches zur BOM die gar keine ist