Gunnar Bittersmann: RegExp: Range von UTF-8 Zeichen definieren

Beitrag lesen

@@niehztog:

UTF8 Buchstaben

Da scheint mir noch ein Verständnisproblem vorzuliegen: Es gibt keine „UTF-8-Zeichen“. Du meinst „Unicode-Zeichen“. Unicode ist ein Zeichensatz; UTF-8 eine Zeichencodierung. [QA-WHAT -IS-ENCODING, Jendryschik]

Aus diesem Verständnisproblem resultierte wohl auch dein Versuch, die Bytes, die in UTF-8 für ein Zeichen stehen, zu betrachten anstatt die Unicode-Codepoints. Reguläre Ausdrücke arbeiten auf Zeichen.

Live long and prosper,
Gunnar

--
Erwebsregel 208: Manchmal ist das einzige, was gefährlicher als eine Frage ist, eine Antwort.