Rolf B: HTML mit Umlauten ohne Verhunzung des Codes

Beitrag lesen

problematische Seite

Hallo MudGuard,

das kann sie gerne behaupten, aber wie ich heute morgen gelernt habe, hat ein HTTP Header Vorrang. Und da steht UTF-8.

Die Inhalte sind schräg, weil da vermutlich mehrfach hin- und herkonvertiert wurde und es dann zu Schrott kam. Das ß ist im Unicode, in ISO-8859-1 und auch in der Windows Codepage 1252 auf dem Codepoint 0xDF. In einer UTF-Codierung muss dieser Codepoint in zwei Bytes dargestellt werden, als 0xC3 0x9F.

"gleichermaßen", in UTF-8 gespeichert und als ANSI gelesen, wird damit zu "gleichermaßen"

Das Ÿ hat im Unicode den Codepoint 376, und genau das: &#376, findet sich im HTML Quelltext.

Davor steht die Unicodesequenz EF BF BD, was dem Codepoint \ufffd entspricht, das "Ungültig" Zeichen.

Da muss man wohl nochmal vorsichtig von vorn beginnen. Wenn Nodepad++ die Konvertierung nicht mehr beherrscht, ist das natürlich ärgerlich.

Die Behauptung: "Leider hat dies den kompletten Code verhunzt, weil alle Umlaute in kryptische Zeichen umgewandelt wurde (ä in ä, ü in ü, ö in ö etc.)" deutet darauf hin, dass die nach Unicode konvertierten Dateien danach als ANSI geöffnet / dargestellt wurden. Denn die Zeichenfolgen, die Virtuella da zeigt, sind gerade die Zeichenpaare, als die Umlaute in UTF-8 erscheinen.

Hier muss der verwendete Toolstack nochmal genau überprüft werden, was da wo wie eingestellt ist, so dass keine Fehlbedienung vorkommt. Von hier aus lässt sich das kaum beurteilen. Ein Encoding zu migrieren ist leider kein Job der Spaß macht.

Rolf

--
sumpsi - posui - obstruxi