Gunnar Bittersmann: Regulärer Ausdruck mit [[:cntrl:]] erfasst chinesische Zeichen

Beitrag lesen

@@Der Martin

Das heißt, die Byte-Darstellung dieser Zeichen enthält irgendwo einen der Bytewerte 0x00 .. 0x1F, 0xFF oder 0x7F (gehört AFAIR zu :cntrl: dazu).

Kann doch eigentlich gar nicht. Die Bytewerte der Bytesequenzen von Nicht-ASCII-Zeichen (i.e. ab U+0080) in UTF-8 sind binär 110xxxxx, 1110xxxx, 11110xxx oder 10xxxxx, also weder 00000000 bis 00011111 noch 11111111 noch 01111111.

Oder hab ich da einen Denkfehler?

LLAP 🖖

--
“I love to go to JS conferences to speak about how to avoid using JavaScript. Please learn CSS & HTML to reduce your JS code bloat.” —Estelle Weyl