seth: regexp: unicode als zeichenklasse

Beitrag lesen

gudn tach!

/u0130 ist ein besonderes I.

Türken und Sprecher von anderen Turksprachen mit lateinischer Schrift werden in İ nichts Besonderes sehen.

es ist ein besonderes "i", so wie ein "ß" ein besonderes "s" und ein "å" ein besonderes "a" ist. es ist allerdings besonders besonders, da es offenbar das einzige utf8-zeichen ist, das als eine version eines zeichens aus [a-z] angesehen wird.

Überhaubt sollte man von dem Begriff „Sonderzeichen“ für Nicht-ASCII-Zeichen mal wegkommen, wir leben nicht mehr im Jahre 1970.

ein sonderzeichen ist fuer mich auch z.b. ein "!", das im ascii vorkommt.

In HTML gibt es genau 5 Sonderzeichen: < > & ' ". Alle anderen Zeichen (und damit sind nicht nur lateinische Buchstaben gemeint) sind nicht besonderer als A.* Es gibt allenfalls unfähige Software, die mit Unicode nicht klarkommt.

in unicode sind auch nicht alle zeichen enthalten, somit ist wohl jegliche software unfaehig, da z.b. dieser buchstabe (sorry, ich kann ich nicht schreiben) von ihr nicht dargestellt werden kann, da er auch gar nicht im unicode enthalten ist.

natuerlich kann man sich ueber den stand der technik hinwegsetzen und den status quo schon mal vorsorglich als obsolet deklarieren. aber pragmatisch ist das nicht gerade. zumindest hilft es nicht in der sache. solange die zeichen ausserhalb des ascii besonderes handling benoetigen, ist eine unterscheidung zw. ascii und unicode notwendig. das ist tautologisch und hat nichts mit 1970 zu tun.

prost
seth