Hallo pl,
Das BOM ist Teil der Oktettsequenz, also in derselben Codierung.
Genau! Das ist ungefähr so, als würde man auf einen Brief der in chinesisch verfasst ist, in chinesisch oben drüber schreiben, daß der Brief in chinesisch geschrieben ist.
Eher so, als würde man über einem in lateinischen Schriftzeichen geschriebenen Text vermerken, dass er in Spanisch verfasst ist. Dann weiß der Schwede, der weder spanisch noch portugiesisch kann, Bescheid. Im Falle von Unicode ist der alte Schwede dein Computer.
Oder ein Hardwarebeispiel: Deine altehrwürdige RS-232C Schnittstelle sendet eine Folge von + und - Spannungssignalen. Was wäre ich damals bloß dankbar gewesen, wenn zum RS-232C Protokoll ein PIEP[1] Sequenz gehört hätte, aus der klar erkennbar ist, ob da jemand mit 9600bps, 8 bit, no parity und 2 Stopp-Bits sendet, oder mit 56000bps, 7 Bit, Odd Parity und 1 Stopbit. Genau das liefert Dir das BOM. DAS Geschenk Gottes an die Codierende Menschheit. Und Du beklagst Dich drüber. Ts...
Das ergibt sich aus der Codierung.
Korrekt. Das muß also vorher bekannt sein, welche Kodierung. Und es muß auch bekannt sein, ob eine BOM vorhanden ist oder nicht.
Nein. Wie gezeigt, kann man das in den allermeisten Fällen automatisch erkennen. Der Fall "Kein BOM" ist der ekligste, dann spielt man Heiteres Codierungsraten mit Robert (Bob) Jung. Welches Coderl hättens denn gerne? ..
Umständlicher gehts ja nun wirklich nicht, aber danke für die geistige Erhellung 😉
Lass Dich nicht dabei aufhalten, es besser zu machen. Die oben verlinkten Kollegen sind ja bisher nicht durch Reputation oder Ahnung im IT-Wesen aufgefallen. Sie sind sicher dankbar für deine Erleuchtung.
Spaß beiseite: Eine umständlich erscheinende Lösung ist oft die einzige, die für eine gegebene Menge an Problemen hinreicht. Wir hier kennen garantiert nicht alle Überlegungen, die zum BOM geführt haben und andere Lösungen ausgeschlossen haben. Und ganz bestimmt haben auch viele Überlegungen der Art stattgefunden, die uns in Nicäa und Chalcedon so rätselhafte Dinge wie Dreifaltigkeit und "wahren Menschen und wahren Gott" ins Gebetbuch geschrieben haben, nämlich: Wem muss ich zustimmen, um meine Pfründe am besten zu sichern? Und genau wegen dieser Überlegungen entstand ein Schisma nach dem anderen. Wir können immerhin froh sein, dass wir nicht unter "Unicode", "Uniertem Code", "Allumfassendem Code", "Alt-Allumfassenden Code" (die, die das Unfehlbarkeit des Vorsitzenden des Unicode-Konsortiums nicht anerkennen), "Orthocode" (in griechisch und russisch) und "Reformatorischem Code" zu leiden haben.
Rolf
sumpsi - posui - clusi
Peripheral Interface Encoding Parameter ↩︎