Gunnar Bittersmann: Nachdenkliches zur BOM die gar keine ist

Beitrag lesen

problematische Seite

@@pl

Das BOM ist Teil der Oktettsequenz, also in derselben Codierung.

Genau! Das ist ungefähr so, als würde man auf einen Brief der in chinesisch verfasst ist, in chinesisch oben drüber schreiben, daß der Brief in chinesisch geschrieben ist.

Nein. Das ist ungefähr so, als würde man dazuschreiben, ob der Brief in horizontaler oder vertikaler Schreibrichtung verfasst ist – bei chinesischer Schrift ist ja beides möglich. Nur dass man das nicht dazuschreiben muss, weil das aus dem Schriftbild ersichtlich ist: durch die Abstände zwischen den Zeichen sind entweder Zeilen oder Spalten erkennbar.

Bei Oktettsequenzen wäre das nicht ersichtlich – deshalb das BOM.

Korrekt. Das muß also vorher bekannt sein, welche Kodierung.

Ja, natürlich.

Und es muß auch bekannt sein, ob eine BOM vorhanden ist oder nicht.

Nein, natürlich nicht. Der Text wird zeichenweise gelesen. Wenn das erste Zeichen U+FEFF ist, dann ist es ein BOM.

Die Erkennung ist deshalb möglich, weil es das Zeichen U+FFFE in Unicode nicht gibt. In einer UTF-16-codierten Ressource sagt die Oktettsequenz FF FE also eindeutig: UTF-16 Little Endian. Die Oktettsequenz FE FF sagt eindeutig: UTF-16 Big Endian.

Umständlicher gehts ja nun wirklich nicht, aber danke für die geistige Erhellung 😉

Ich weiß nicht, was daran groß umständlich wäre. Aber gerngeschehn.

LLAP 🖖

--
“When UX doesn’t consider all users, shouldn’t it be known as ‘Some User Experience’ or... SUX? #a11y” —Billy Gregory