pl: Nachdenkliches zur BOM die gar keine ist

Beitrag lesen

problematische Seite

Hallo ,

wird das jetzt der Weihnachtsstammtisch?

Warum nicht? Ich habs doch auch nicht gleich verstanden was Wiki mir sagen will und daß der Begriff irreführend ist.

In Dateien gibt es keine Zeichen. Da gibt es nur Bytes.

Richtig. Aber die Bytes stehen für Zeichen, und in einer Unicode-Datei stehen, je nach Codierung, 1-4 Bytes für ein Zeichen. Und das BOM hilft, die richtige Codierung zu erkennen. Es steht für ein Unicode-ZEICHEN. Immer das gleiche: zero-width no-break space. Und besteht daher je nach verwendeter Codierung aus mehreren Bytes.

Da das Ding ByteOrdnungsMarkierung heißt, und nicht Byte für die OrdnungsMarkierung, ist es auch nicht erforderlich, sich dabei auf ein Byte zu beschränken. Gute Erkennbarkeit ist wichtiger als ein oder zwei zusätzliche Bytes. Die Irreführung dürfte daher hauptsächlich auf einen Irrtum deinerseits zurückzuführen sein.

Diese Bytes sind in jeder Codierung anders und ermöglichen damit die Erkennung. Leider nicht zu 100%, es gibt Grenzfälle, bei denen das schiefgehen kann. Wie häufig das passiert, kann ich nicht einschätzen.

So isses. D.h, wenn man die BOM interpretieren will, muss man dazu wissen mit welcher Kodierung sie erstellt wurde und wieviele Bytes dafür zu lesen sind. Bleibt immer noch die Frage offen wozu das alles gut sein soll.

MfG