@@pl
Der Oktettwert
61
steht in UTF-8 für den Codepoint U+0061. Wo ist da die Ungleichheit?Das ist ja auch ASCII.
Ja, und? Deine Aussage war „Nur bei ASCII, ISO-8859-1, UTF16 und UTF32 sind die Oktettenwertigkeiten gleich dem Codepoint“ – bei UTF-8 also nicht. Ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-8 auch zutrifft; und ich habe dir ein Gegenbeispiel geliefert, wo das für UTF-16 nicht zutrifft. Deine Aussage war also falsch.
Worauf ich hinauswollte: UTF-8 ist eine Codierung mit variabler Länge; UTF-16 ebenso.
Bei UTF-8 stimmt der Oktettwert mit dem Codepoint für die ASCII-Zeichen bis U+007F überein; bei UTF-16 gilt dies für die Zeichen der basic multilingual plane (BMP) bis U+FFFD.
Nun, UTF16 heißt 16 Bit, kann also normalerweise nur Zeichen der Codepoints bis 16 Bit kodieren
Falsch. UTF steht für: Unicode Transformation Format. Alle UTF-Zeichencodierungen decken den gesamten Unicode-Bereich ab, nicht nur die BMP.
Aber: Es gibt eine Regelung, welche die Kodierung auch höherwertiger Codepoints ermöglicht.
Diese Regelung nennt sich: Zeichencodierung. Ohne Wenn und Aber.
LLAP 🖖
“When UX doesn’t consider all users, shouldn’t it be known as ‘Some User Experience’ or... SUX? #a11y” —Billy Gregory