Tom: UTF-8 ISO MIX Wie erkennen und anpassen

Beitrag lesen

Hello,

das Problem steckt eventuell darin, dass einzelne Zeichen nicht richtig codiert wurden.
Dann kommt eine Umwandlungsfunktion, die den Text als Ganzes fokussiert, sicherlich aus dem Tritt.

Das kommt z.B. dann vor, wenn ein Text bereits in UTF-8 codiert war und dann aus Unkenntnis als ASCII oder ISO-8859-1 geöffnet und weiterbearbeitet wurde, aber trotzdem als UTF-8 wieder abgespeichert. Das hört sich jetzt wirr an, kommt aber leider in der Praxis immer wieder gerne vor.

MMn ist das der Fluch der Automatik. Die User wissen gar nicht mehr, was da so alles im Hintergrund passiert und normalerweise erkennt ein neuerer Editor UTF-8 auch an der vorangestellten BOM. Fehlt diese aber, nimmt er eben seine Voreintellung. Der User aber merkt beim Abspeichern, dass er ja UTF-8 speichern wollte und hat somit doppelt codiert. Wenn nun im betrachteten Abschnitt keine Zeichen größer #127 vorhanden waren, fällt es ihm auch nicht auf. Je nach Editor wird aber die ganze Datei durch den Konverter geschickt, oder aber nur der bearbeitete Abschnitt.

UTF-8 wird uns noch viel Kummer bereiten.

Liebe Grüße aus Syburg bei Dortmund

Tom vom Berg

--
Nur selber lernen macht schlau
http://bergpost.annerschbarrich.de