WiMu: Hilfe bei regulärem Ausdruck

Beitrag lesen

Liebes Forum,

ich hoffe, ich bin mit "Programmiertechnik" im richtigen Themenbereich ...

also folgendes Problem: ich bräuchte einen regulären Ausdruck, der natürliche Sprache (Deutsch) in einzelne Sätze aufteilt. Die Texte, die gematcht werden sollen, sind sich sehr ähnlich (Biographien) und man kann in etwa voraussehen, was an Strings zu erwarten ist.
Bis jetzt versuche ich es damit:

$saetze = preg_split('/([a-z“]{3,})\.\s*[A-ZÄÖÜ]/', $text, -1, PREG_SPLIT_DELIM_CAPTURE);

... also grob gesprochen ist ein Satz definiert als Folge dreier Kleinbuchstaben, Punkt, Leerzeichen, Großbuchstabe. Das funktioniert einigermaßen - bis auf ein paar Abkürzungen wie "geb., bzw., usw. ...". Die würde ich nun einzeln herausnehmen. Aber wie? Reguläre Ausdrücke sind nicht gerade meine Stärke ...

Beste Grüße und vielen Dank im voraus,
WiMu