hi,
Das BOM ist Teil der Oktettsequenz, also in derselben Codierung.
Genau! Das ist ungefähr so, als würde man auf einen Brief der in chinesisch verfasst ist, in chinesisch oben drüber schreiben, daß der Brief in chinesisch geschrieben ist.
und wieviele Bytes dafür zu lesen sind.
Das ergibt sich aus der Codierung.
Korrekt. Das muß also vorher bekannt sein, welche Kodierung. Und es muß auch bekannt sein, ob eine BOM vorhanden ist oder nicht.
Bleibt immer noch die Frage offen wozu das alles gut sein soll.
Um bei Codierungen wie UTF-16 und UTF-32, in denen beide Reihenfolgen – Big Endian und Little Endian – möglich sind, zu erkennen, welche denn nun verwendet wurde. Also ob bei UTF-16 die Oktettsequenz
01 23
für U+0123 ģ latin small letter g with cedilla oder für U+2301 ⌁ electric arrow steht.
Umständlicher gehts ja nun wirklich nicht, aber danke für die geistige Erhellung 😉
GGA