pl: Nachdenkliches zur BOM die gar keine ist

Beitrag lesen

problematische Seite

@@pl

Das BOM ist Teil der Oktettsequenz, also in derselben Codierung.

Genau! Das ist ungefähr so, als würde man auf einen Brief der in chinesisch verfasst ist, in chinesisch oben drüber schreiben, daß der Brief in chinesisch geschrieben ist.

Nein. Das ist ungefähr so, als würde man dazuschreiben, ob der Brief in horizontaler oder vertikaler Schreibrichtung verfasst ist – bei chinesischer Schrift ist ja beides möglich. Nur dass man das nicht dazuschreiben muss, weil das aus dem Schriftbild ersichtlich ist: durch die Abstände zwischen den Zeichen sind entweder Zeilen oder Spalten erkennbar.

Richtig. Und genauso wie man den ganzen Text rückwärts schreiben kann, kann man das auch mit der Überschrift machen.

Nein, natürlich nicht. Der Text wird zeichenweise gelesen. Wenn das erste Zeichen U+FEFF ist, dann ist es ein BOM.

Es wird kein Text gelesen sondern eine Datei. Und Dateien werden nicht zeichenweise sondern byteweise gelesen.

Die Erkennung ist deshalb möglich, weil es das Zeichen U+FFFE in Unicode nicht gibt.

Das mag sein. Aber die Byteorder gilt ja nicht für den Codepoint sodern für die resultierende Bytesequenz. gga