seth: regexp: unicode als zeichenklasse

Beitrag lesen

gudn tach!

warum bei ausgerechnet diesem eine ausnahme gemacht wird, bleibt mir schleierhaft,

Es gibt im türkischen zwei "i"s, eines mit, eines ohne Punkt. Während im Deutschen der Punkt nur beim kleinen "i" vorkommt und das große "I" ohne Punkt dessen Equivalent ist, bleibt im Türkischen der Punkt / Nicht-Punkt bei der Umwandlung in Groß- bzw. Kleinbuchstaben erhalten.

ja, interessant finde ich, dass dies wohl die einzige ausnahme ist bei den zeichen aus [a-z], und das obwohl's doch so viele verschiedende sprachen/schriften gibt.

Siehe z.B. http://www.codinghorror.com/blog/archives/001075.html

hehe, cool, <schwarzmal>demnaechst muessen also alle scripts immer sukzessive in allen locales durchprobiert werden, yippieh!</schwarzmal>

aber man muss es wohl in javascript (nicht jedoch beispielsweise in perl oder php) so hinnehmen.

In Javascript wird dieses Problem standardmäßig berücksichtigt, Perl muß man erst dazu überreden (per locale und Behandlung von Strings als Unicode), weil Perl traditionell mit Bytes statt mit Unicode-Zeichen arbeitet.

hmm, aber ich dachte, dass unicode und locale sich normalerweise nicht beissen... perldoc perlunicode.

prost
seth