Versions-Historie des Beitrags „Nachdenkliches zur BOM die gar keine ist“

Nachdenkliches zur BOM die gar keine ist

bearbeitet von

Gunnar Bittersmann 27.12.2017 12:01

@@pl > > Der Oktettwert `61` steht in UTF-8 für den Codepoint U+0061. Wo ist da die Ungleichheit? > > > > Das ist ja auch ASCII. Ja, und? Deine Aussage war „Nur bei ASCII, ISO-8859-1, UTF16 und UTF32 sind die Oktettenwertigkeiten gleich dem Codepoint“ – bei UTF-8 also nicht. Ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-8 auch zutrifft; und ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-16 nicht zutrifft. Deine Aussage war also falsch. Worauf ich hinauswollte: UTF-8 ist eine Codierung mit variabler Länge; UTF-16 ebenso. Bei UTF-8 stimmt der Oktettwert mit dem Codepoint für die ASCII-Zeichen bis U+007F überein; bei UTF-16 gilt dies für die Zeichen der *basic multilingual plane*{:@en} (BMP) bis U+FFFD. > Nun, UTF16 heißt 16 Bit, kann also normalerweise nur Zeichen der Codepoints bis 16 Bit kodieren Falsch. UTF steht für: ***Unicode** Transformation Format*{:@en}. Alle UTF-Zeichencodierungen decken den gesamten Unicode-Bereich ab, nicht nur die BMP. > Aber: Es gibt eine Regelung, welche die Kodierung auch höherwertiger Codepoints ermöglicht. Diese Regelung nennt sich: Zeichencodierung. Ohne Wenn und Aber. LLAP 🖖 -- “When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)

Nachdenkliches zur BOM die gar keine ist

bearbeitet von

Gunnar Bittersmann 27.12.2017 12:04

@@pl > > Der Oktettwert `61` steht in UTF-8 für den Codepoint U+0061. Wo ist da die Ungleichheit? > > > > Das ist ja auch ASCII. Ja, und? Deine Aussage war „Nur bei ASCII, ISO-8859-1, UTF16 und UTF32 sind die Oktettenwertigkeiten gleich dem Codepoint“, bei UTF-8 also nicht. Ich habe dir ein Gegenbeispiel geliefert; deine Aussage war also falsch. Worauf ich hinauswollte: UTF-8 ist eine Codierung mit variabler Länge; UTF-16 ebenso. Bei UTF-8 stimmt der Oktettwert mit dem Codepoint für die ASCII-Zeichen bis U+007F überein; bei UTF-16 gilt dies für die Zeichen der *basic multilingual plane*{:@en} (BMP) bis U+FFFD. > Nun, UTF16 heißt 16 Bit, kann also normalerweise nur Zeichen der Codepoints bis 16 Bit kodieren Falsch. UTF steht für: ***Unicode** Transformation Format*{:@en}. Alle UTF-Zeichencodierungen decken den gesamten Unicode-Bereich ab, nicht nur die BMP. > Aber: Es gibt eine Regelung, welche die Kodierung auch höherwertiger Codepoints ermöglicht. Diese Regelung nennt sich: Zeichencodierung. Ohne Wenn und Aber. LLAP 🖖 -- “When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)