Gunnar Bittersmann: regexp: unicode als zeichenklasse

Beitrag lesen

@@seth:

nuqneH

es ist ein besonderes "i", so wie ein "ß" ein besonderes "s"

'I'/'ı' und 'İ'/'i' sind verschieden Buchstaben des türkischen Alphabets, 'ß' ist kein 's'.

es ist allerdings besonders besonders, da es offenbar das einzige utf8-zeichen ist, das als eine version eines zeichens aus [a-z] angesehen wird.

Die Besonderheit mag daher rühren, dass 'I' in Nicht-Turksprachen der Großbuchstabe von 'i' ist, in Turksprachen aber von 'ı'. Und daher, dass 'i' in Nicht-Turksprachen der Kleinbuchstabe von 'I' ist, in Turksprachen aber von 'İ'.

ein sonderzeichen ist fuer mich auch z.b. ein "!", das im ascii vorkommt.

'!' ist ein Satzzeichen (Interpunktionszeichen), daran ist nichts besonderes. Oder schreibst du ohne Punkt und Komma?

(Großbichstaben scheinen für dich Sonderzeichen zu sein? ;-))

solange die zeichen ausserhalb des ascii besonderes handling benoetigen

Das sollten sie nicht; Software sollte soweit internationalisiert sein. Ist sie das nicht, ist sie diesbezüglich auf dem Stand von 1970, nicht von 2009.

Qapla'

--
Alle Menschen sind klug. Die einen vorher, die anderen nachher. (John Steinbeck)