Sven Rautenberg: Gibt es hier Unicode Spezialisten?

Beitrag lesen

Moin!

UTF ist in diesem Sinne auch abwärtskompatibel. Ein Text mit lateinischen Buchstaben ist in 32-Bit Unicode nicht von 7-Bit-US-ASCII zu unterscheiden, sofern in Unicode als UTF-8 gespeichert wurde. Selbst Unicode/UTF-8-Texte mit gelegentlichen nicht-lateinischen Zeichen lassen sich mit herkömmlichen Programmen noch problemlos erkennen, wie man an Deinem Beispiel ja hervorragend sieht:

Wenn der Hahn kräht auf dem Mist

Hinsichtlich der Kompatibilität wäre noch anzumerken, dass man UTF-8-codierten Text auch ohne Kenntnis dieser Codierung rein nach den Bytewerten sortieren kann - das Ergebnis wird entsprechend der einzelnen Alphabetsortierungen der Sprachen mehr oder weniger korrekt sein (Ausnahmen bestätigen die Regel - der Sonderfall des Deutschen, dass die Umlaute beim Sortieren wie die zugehörigen Stammlaute sortiert werden, läßt sich durch simples Bytewert-Sortieren beispielsweise nicht realisieren).

Man kann mit UTF-8 also recht problemlos arbeiten, ohne auch nur ein einziges UTF-8-Zeichen verstehen zu müssen. Sofern man nicht tatsächlich auf Einzelzeichen zugreifen muß (also beispielsweise das "ä" sucht und dafür eine Funktion benutzt, die nur exakt ein 8-Bit-Zeichen finden kann), reicht es vollkommen aus, den UTF-8-Text einfach nur ohne große Bearbeitung ein- und auszugeben.

- Sven Rautenberg