RR: Führt eine datei.txt die Zeichencodierung (z.B. UTF8) mit?

Beitrag lesen

Hi Linuchs,

BOM ist lästig und sollte man nicht verwenden für UTF-8.

Wenn es Dir allerdings darum gehen sollte, automatisch zu erkennen, in welcher Kodierung die geleferte Datei vorliegt, dann gibt es zumindest ein paar Algorithmen, mit denen man diese abschätzen kann.

Das funktioniert leider nicht sicher, aber zur Unterscheidung von ISO8859-1 und UTF-8 reicht es meistens. Manche Editoren nutzen diese wohl auch.

Hier im Archiv gibt es bestimmt is_utf8() oder ' was Ähnliches. PHP hat da wohl auch eine Funktion. Bei den ISOs und "Codepages" sieht es schon schlechter aus. Die klassische IBM Codepage 437 und die 850 (usw.) kann man wohl nicht automatisch auseinanderhalten. Da müsstest Fu dann ggf auf dem Server ein Visualisierungsmodul basteln, mit dessn Hilfe der User entscheiden kann.

LG
RoRo