Sascha Nehls: Parsen von Umlauten in UTF-8

Beitrag lesen

Ich bin gerade dabei mein Gästebuch um einige Sprachen zu erweitern, dafür habe ich auch den Zeichensatz im HTTP header auf UTF-8 gestellt. Auch im <form> tag habe ich die Zeichencodierung auf UTF-8 gestellt, wodurch sich folgende Probleme ergeben.

[1] In meiner Textdatei wo die Einträge des Gästebuchs gespeichert werden, werden jetzt Sonderzeichen in der Form ö oder ä gepeichert. Dadurch ist die Textdatei für mich nicht mehr so leicht lesbar, allerdings Zeigt der Browser die Umlaute/Sonderzeichen korrekt an. Könnte das in irgendwie problematisch werden?

[2] Oder anders ausgedrückt: Macht es Sinn, mit Hilfe von regulären Ausdrücken die Formulareingaben nach Sonderzeichen zu durchkämmen und dann durch die HTML-Codierung zu ersetzen z.B. &ouml; für das deutsche ö? Das Problem ist, ich werde das Gästebuch für ca. 8 Sprachen auslegen, das ergibt eine ganze Menge Umlaute und Sonderzeichen, die zu beachten wären.

Vielen Dank für Eure Hilfe!
Sascha