Nachdenkliches zur BOM die gar keine ist
bearbeitet von Gunnar Bittersmann@@pl
> > Der Oktettwert `61` steht in UTF-8 für den Codepoint U+0061. Wo ist da die Ungleichheit?
> >
>
> Das ist ja auch ASCII.
Ja, und? Deine Aussage war „Nur bei ASCII, ISO-8859-1, UTF16 und UTF32 sind die Oktettenwertigkeiten gleich dem Codepoint“, bei UTF-8 also nicht. Ich habe dir ein Gegenbeispiel geliefert; deine Aussage war also falsch.
Worauf ich hinauswollte: UTF-8 ist eine Codierung mit variabler Länge; UTF-16 ebenso.
Bei UTF-8 stimmt der Oktettwert mit dem Codepoint für die ASCII-Zeichen bis U+007F überein; bei UTF-16 gilt dies für die Zeichen der *basic multilingual plane*{:@en} (BMP) bis U+FFFD.
> Nun, UTF16 heißt 16 Bit, kann also normalerweise nur Zeichen der Codepoints bis 16 Bit kodieren
Falsch. UTF steht für: ***Unicode** Transformation Format*{:@en}. Alle UTF-Zeichencodierungen decken den gesamten Unicode-Bereich ab, nicht nur die BMP.
> Aber: Es gibt eine Regelung, welche die Kodierung auch höherwertiger Codepoints ermöglicht.
Diese Regelung nennt sich: Zeichencodierung. Ohne Wenn und Aber.
LLAP 🖖
--
“When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)