Sven Rautenberg: utf-8

Beitrag lesen

Moin!

Soweit ich dass verstanden habe, ist die BOM ein Informationshinweis für das Dateiöffnende Programm: "Achtung, jetzt kommt utf-8!"-vorrausgesetzt das Öffnende Programm kann damit umgehen.

Die Wahrscheinlichkeit, dass hinter den drei Bytes einer UTF-8-codierten BOM tatsächlich UTF-8 folgt, ist natürlich nicht unbedingt niedrig, aber man kann allein an den verwendeten Bytes eines Datenstromes nicht erkennen, welche Codierung benutzt wurde.

Die Sache sieht anders aus, wenn man sich anschaut, ob der Datenstrom in irgendeiner Weise ein Codierungslabel besitzt. Wenn ein Datenstrom als UTF-8 ausgezeichnet ist, z.B. durch die Charset-Angabe im Mimetyp, dann muß man nicht raten. In so einem Fall ist bei UTF-8 die BOM allerdings überflüssig, da ihre Funktion der "Byte Order" in UTF-8 nicht benötigt wird.

- Sven Rautenberg

--
"Love your nation - respect the others."