Gunnar Bittersmann: Suche Muster für "Kleinbuchstaben gefolgt von Großbuchstaben"

Beitrag lesen

@@Hasso

Nur wüsste ich gerne, wie der richtige denn lauten müsste 😊

Im Bereich bis U+00FF (Basic Latin und Latin-1 Supplement) sind die Groß- und Kleinbuchstaben jeweils gruppiert, sodass man die mit [A-ZÀ-ÖØ-Þ] bzw. [a-zß-öø-ÿ] angeben kann. Schon besser als nur [A-Z] und [a-z]; vielleicht reicht das ja für deine Zwecke.

Ab U+0100 (Latin Extended-A, …) geht das nicht mehr; Groß- und Kleinbuchstaben sind alternierend. Da braucht man dann die Unicode-Zeichenkategorien wie von Rolf gezeigt – sofern die jeweilige Regexp-Engine das unterstützt.

Ansonsten fiele mir noch ein, die Strings in NFD (decomposed) umzuwandeln (sofern die jeweilige Programmiersprache das unterstützt) und dann sowas wie [A-Z][\u{0300}-\u{0362}]* bzw. [a-z][\u{0300}-\u{0362}]* zu verwenden (U+0300 bis U+0362 sind kombinierende diakritische Zeichen) und hinterher wieder in NFC (composed) zu konvertieren. Das wäre aber eher ein übler Hack als eine vernünftige Lösung.

LLAP 🖖

--
„Man kann sich halt nicht sicher sein“, sagt der Mann auf der Straße, „dass in einer Gruppe Flüchtlinge nicht auch Arschlöcher sind.“
„Stimmt wohl“, sagt das Känguru, „aber immerhin kann man sich sicher sein, dass in einer Gruppe Rassisten nur Arschlöcher sind.“

—Marc-Uwe Kling