Andreas Dölling: RegExp: \b matcht auch Umlaute?

Beitrag lesen

Hallo,

eine andere moeglichkeit: \b und \w nachbauen...

ungern...

"A word boundary is a position in the subject string where the current character and the previous character do not both match \w or \W (i.e. one matches \w and the other matches \W), or the start or end of the string if the first or last character matches \w, respectively." (aus dem php-manual ueber pcre)

Ja, hast recht - aus dieser Definition geht klar hervor, daß \b abhängig von der locale-Einstellung ist.

dann wird dir evtl. das weiterhelfen.

Phew - damit habe ja noch nie gearbeitet.

noe, ich vermeide umlaute und sz bzw. ersetze sie.

Hm, genau _das_ will ich aber nicht mehr. Ich bin gerade dabei, das Textarchiv eines Fanzines zu "säubern", wo im Moment alle Texte als HTML mit Umlaut-Entities und ziemlich verschwurbeltem Old-School-Markup vorliegen.
Und ein Ziel ist es auch, die Texte als saubere UTF-8-Texte vorliegen zu haben - ohne Entities, mit ganz normalen Umlauten.

prost

Erst heute abend!
;)

Ciao,
Andreas

--
"Das Corporate Design für das Internet sieht eine Reihe von Grafikelementen vor, die die Optik der Webseite visuell und funktionell beeinflussen." - (Zitat aus dem "Styleguide Corporate Design"  eines großen Konzerns...)