Moin!
UTF ist in diesem Sinne auch abwärtskompatibel. Ein Text mit lateinischen Buchstaben ist in 32-Bit Unicode nicht von 7-Bit-US-ASCII zu unterscheiden, sofern in Unicode als UTF-8 gespeichert wurde. Selbst Unicode/UTF-8-Texte mit gelegentlichen nicht-lateinischen Zeichen lassen sich mit herkömmlichen Programmen noch problemlos erkennen, wie man an Deinem Beispiel ja hervorragend sieht:
Wenn der Hahn kräht auf dem Mist
Hinsichtlich der Kompatibilität wäre noch anzumerken, dass man UTF-8-codierten Text auch ohne Kenntnis dieser Codierung rein nach den Bytewerten sortieren kann - das Ergebnis wird entsprechend der einzelnen Alphabetsortierungen der Sprachen mehr oder weniger korrekt sein (Ausnahmen bestätigen die Regel - der Sonderfall des Deutschen, dass die Umlaute beim Sortieren wie die zugehörigen Stammlaute sortiert werden, läßt sich durch simples Bytewert-Sortieren beispielsweise nicht realisieren).
Man kann mit UTF-8 also recht problemlos arbeiten, ohne auch nur ein einziges UTF-8-Zeichen verstehen zu müssen. Sofern man nicht tatsächlich auf Einzelzeichen zugreifen muß (also beispielsweise das "ä" sucht und dafür eine Funktion benutzt, die nur exakt ein 8-Bit-Zeichen finden kann), reicht es vollkommen aus, den UTF-8-Text einfach nur ohne große Bearbeitung ein- und auszugeben.
- Sven Rautenberg