Axel Richter: Richtiges encoding

Beitrag lesen

Hallo,

Interpretiere ich deine Aussage so richtig, dass es zwar für "alle" Zeichen eine UCS-Kodierung gibt, aber keine UTF-8-Kodierung?

Doch, die gibt es schon. Jeder UCS-Code ist UTF transformierbar. Allerdings für US-ASCII eben je Zeichen 8-Bit lang und für andere Sprachen ggf. je Zeichen bis zu 3 Bit lang, wobei eigentlich der Bereich U0000 - UFFFF, also 16 Bit je Zeichen, für alle Sprachen ausreichen würde. Nur ganz spezielle Sonderzeichen müssten mehr Speicher verbrauchen.

Das Hauptproblem liegt aber darin, dass man das Zeichen nicht im Unicode sendet und speichert, sondern _nochmals_ Rechenkapazität je Zeichen aufwenden muss, um es UTF zu kodieren. Das war bei ASCII bzw. ANSI und in den ISO-Codemaps nicht erforderlich. Der Speicher enthielt einfach den Hex-Code des Zeichens, nicht nochmals eine Transformation.

Und dass man besser irgendwann einen harten Schnitt zugunsten von UCS hätte machen sollen und den "UTF-X-Käse" (unterschiedlich lange Kodierung aus historischen Gründen) niemals erlaubt/erfunden haben sollte?

Ja, der Meinung bin ich.

viele Grüße

Axel