dedlfix: Sonderzeichen und latin1

Beitrag lesen

Hi!

Würde dann mehr passieren, als das irgendein Ersatzzeichen genommen würde oder eine Buchstabenlücke entstände?
Ersatzzeichen (nicht zu verwechseln mit Ersatzdarstellungen wie NCRs/Entitys in HTML) sind generell jeweils nur ein einziges Zeichen, zum Beispiel das Fragezeichen. Aus diesem kann man das ursprüngliche Zeichen nicht wiederherstellen - es ist also verloren.

Ersatzzeichen? Verloren? Das verstehe ich nicht ganz.

Es geht um Konvertierung von Zeichen von einer Kodierung in eine andere. Wenn ein Zeichen mit der Zielkodierung nicht darstellbar ist, geht es verloren, weil dafür höchstens ein Ersatzzeichen verwendet werden kann.

Angenommen es wird Text in Latin-5 codiert und in der DB gespeichert. Dann wird der Text wieder ausgelesen aber das weiterverbeitende Programm meint, es handele sich um Latin-1, und stellt daher nur unverständliches Zeug dar.

Das ist der Fall der Falschinterpretation. Auch hier kann es in der Ausgabe zu Ersatzzeichen kommen, beispielsweise, wenn ein ISO-8859-x-Text als UTF-8 interpretiert wird. Da aber die Quelle nicht geändert wird, kann sie beliebig oft anders interpretiert werden.

Wenn die Ausgabe mit enthaltenen Ersatzzeichen allerdings weiterverarbeitet wird, dann gibt es auch hier wieder Verlustpotential.

Lo!