dedlfix: Datei-Konvertierung von utf-8 zu utf-16

Beitrag lesen

Hi!

1 Zeichen = 1 16-Bit-Block in UTF-16, das ist in den meisten Fällen extrem verschwenderisch.
Das gilt natürlich nur für die BMP ;) ansonsten wäre da natürlich noch UTF-32, wie Wolfgang schon sagt, wo wirklich jedes einzelne Zeichen mit 32-Bit gespeichert wird, das ist dann die inbrunst von Verschwendung.

Das kommt darauf an, für welchen Anwendungsfall man das betrachtet. Wenn du die Speicherung meinst, ja, da gibt es je nach Inhalt effizientere Ablageformen. Aber wenn du damit arbeiten willst, ist UTF-8 mitunter ungünstig, weil du für Stringverarbeitung die Positionen von Zeichen nicht einfach errechnen kannst, sondern nachschauen muss, wie lang die vorhandenen Zeichen wirklich sind, und so weiter. Oder du kodierst das zwischen der Datei-Kodierung und der für den Arbeitsspeicher um. Beides ist, wenn du so willst, auch Verschwendung, diesmal von Rechenkapazität.

Lo!