Daniel Thoma: encoding detection

Beitrag lesen

Hallo zusammen

Viele Progamme erkennen automatisch den Zeichensatz eines Dokumentes.
Ich möchte das für XML-Files machen. Aber wie geht das?
Der Zeichensatz wird zwar im XML-File (wenn nicht UTF-16 oder UTF-8) angegeben, aber ich kann
diese Information ja erst lesen, wenn ich wenigstens ungefähr weis, in welchem Zeichensatz sie steht.
Auch die Byte Order Markierungen sind von zweifelhaftem Nutzen.
Eine UTF-8 Datei fängt mit der BOM "EF BB BF" (3 Byte) an. Ein normales Asci file, das mit der Zeichenfolge  anfängt, sieht dann aber aus, wie ein UTF-8 File.

Tschüs und Danke

Daniel