Beat: utf8 - unicode

Beitrag lesen

danke, Beat. Das war sehr aufschlussreich. Endlich mal eine gute Erklärung!

Im Gegenteil. Außer dass das Unicode Consortium sich um Unicode kümmert ist eigentlich nichts so richtig richtig, und auch das war nur die halbe Wahrheit, denn das Unicode Consortium arbeitet zusammen mit der IEC an diesem Standard.[1]

Naja, wer halt nicht verlinkt, nimmt das Risiko auf sich.

Um es kurz zu machen: Unicode ist ein Zeichensatz - eine Ansammlung von Zeichen - und damit ein eher theoretisches Gebilde. UTF-8 ist eine Zeichenkodierung - eine Abbildung der Codepoints von Unicode auf konkrete Bytes und Bytefolgen.

Sieh da, und wir haben ein lexikalisches Problem.
Für mich ist UTF-8 ein Zeichensatz, und so wird es auch benannt.
Zeichensätze kann ich austauschen. Unicode kann ich nicht austauschen. Denn es ist ein vermittelndes System, welches Beschreibungen von Zeichen mit Nummern mappt und so in Programmen adressierbar macht.

Encoding und Decoding ist für mich immer noch der Vorgang einer Übersetzung. Nämlich von einem Zeichensatz (dem einer Datei oder eines andere I/O Layers) in den Programm-internen Zeichensatz bzw. umgekehrt. Derer hat zum Beispiel Perl gleich zwei.

--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o
Der Valigator leibt diese Fische