Hello out there!
Ich persönlich mag UTF-8 nicht, weil damit die Regel "Ein Byte, ein Zeichen", die für mich viele Jahre lang fast schon ein Dogma war, nicht mehr gilt; die Anzahl der Bytes pro Zeichen ist nicht einmal mehr konstant.
Warum auch?
Ein Zeichen in einem String (1) ist das eine; wie das Zeichen codiert gespeichert wird (2) was ganz Anderes.
Wenn man sauber programmiert, mischt man die beiden Ebenen auch nicht. Genauer gesagt, geht einen (2) überhaupt gar nichts an; man bewegt sich ausschließlich in der Ebene (1). Ein Zeichen ist ein Zeichen ist ein Zeichen, der Begriff „Byte“ existiert auf dieser Abstraktionsebene gar nicht.
Die Umwandlung der Zeichen in die Bytewerte ist Sache des Systems (Interpreters/Compilers der verwendeten Programmiersprache), nicht die des Programmieres.
See ya up the road,
Gunnar
“Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)