dedlfix: utf8 - unicode

Beitrag lesen

Hi!

Aber UTF-8 ist auch nur ein begrenztes, wenn auch in nächster Zeit ausreichendes Char-Speicher-Set

Nein, UTF-8 ist weder Charset noch Char-Speicher-Set sondern eine Vorschrift, wie Codepoints in Bytes umgerechnet werden.

Und Unicode ist so angelegt, dass es nicht begrenzt ist. Jedes Zeichen befindet sich an einem Codepoint, der eine natürliche Zahl ist und damit nach oben unbegrenzt. Und wenn du so willst hat das UTF-8-Kodierprinzip zwar derzeit eine Grenze, aber ich sehe da durchaus noch genügend Potenzial um der Unendlichkeit ein gutes Stück näher zu kommen (das (Näherkommen) geht zwar im Prinzip rein technisch nicht, aber egal).

Ich lasse durchaus über den Begriff Charset diskutieren. Unicode hat ja die historischen Charsets von der Beschreibung der Codepunkte entlastet. Die primäre Aufgabe ist es die Speicherordnung in Bytes zu regeln.

Genau das ist eben nicht Unicodes Aufgabe, das ist Aufgabe der Kodierungen. Unicode-Codepoints haben keinen Bezug zu einer konkreten Abbildung. Das regelt die Kodiervorschrift.

Ein Charset ist existentieller Bestandteil jeder Textdatei.

Auch dem kann ich nicht zustimmen. Bestandteil einer Textdatei sind wie bei jeder anderen Datei auch die Bytes (in bytebasierenden Speichermedien). Zum Interpretieren ist es existentiell notwendig die Kodiervorschrift zu kennen. Leider ist die Angabe der Kodiervorschrift in kaum einem Dateisystem Bestandteil einer Datei oder ihrer Metadaten, ebensowenig wie in den einfacheren Dateiformaten - aber das ist ein anderes Thema. Das Charset selbst ist nur implizt von Interesse, weil es als theoretisches Gebilde nur über die Kodiervorschrift einen Bezug zum konkreten Gebilde "Datei" hat. Allenfalls sind zu den im Charset enthaltenen Zeichen Eigenschaften definiert, die zur weiteren Verarbeitung benötigt werden (Sortierung, Schreibrichtung), nicht aber für die Existenz des Dateiinhalts.

Lo!