Rolf B: Nachdenkliches zur BOM die gar keine ist

Beitrag lesen

problematische Seite

Hallo pl,

wird das jetzt der Weihnachtsstammtisch?

In Dateien gibt es keine Zeichen. Da gibt es nur Bytes.

Richtig. Aber die Bytes stehen für Zeichen, und in einer Unicode-Datei stehen, je nach Codierung, 1-4 Bytes für ein Zeichen. Und das BOM hilft, die richtige Codierung zu erkennen. Es steht für ein Unicode-ZEICHEN. Immer das gleiche: zero-width no-break space. Und besteht daher je nach verwendeter Codierung aus mehreren Bytes.

Da das Ding ByteOrdnungsMarkierung heißt, und nicht Byte für die OrdnungsMarkierung, ist es auch nicht erforderlich, sich dabei auf ein Byte zu beschränken. Gute Erkennbarkeit ist wichtiger als ein oder zwei zusätzliche Bytes. Die Irreführung dürfte daher hauptsächlich auf einen Irrtum deinerseits zurückzuführen sein.

Diese Bytes sind in jeder Codierung anders und ermöglichen damit die Erkennung. Leider nicht zu 100%, es gibt Grenzfälle, bei denen das schiefgehen kann. Wie häufig das passiert, kann ich nicht einschätzen.

Rolf

--
sumpsi - posui - clusi