Beat: umlaut in regulärem Ausdruck

Beitrag lesen

Nein. RegExps sollten alle Zeichen, die in Unicode als "Ll Letter, lowercase", "Lu Letter, uppercase" oder "Lo Letter, other" gekennzeichnet sind, auch als Buchstaben = Wortzeichen akzeptieren. (Richard Ishidas UniView zeigt die "General category" mit an.)

Toll. Perl müsste dann bei jedem Scriptaufruf eine Bibliothek von mehreren Tausenden Unicodes laden, um Regex parsen zu können. Schlimmer noch, diese Bibliothek ist in permanenter Entwicklung.
Wenn dies schon wünschbar wäre, warum dann nur ein \b und ein \w
Wären andere Nullweite Unicode-Klassengrenzen nicht auch wünschbar? Den Preis hast du ja schon bezahlt.

Das ist der Grund warum ich postuliere:
\w ist in ASCII [A-Za-z0-9_] und \b ist die Grenze zwischen \W und \w oder zwischen \w und \W. Alles andere ist nicht konsistent ausführbar.

Recht gebe ich darin, dass locale in CGI keinen Sinn macht. In einem Netzwerk möchte ich Konsistenz unabhängig der lokalen Maschine.

mfg Beat

--
><o(((°>           ><o(((°>
   <°)))o><                     ><o(((°>o
Der Valigator leibt diese Fische