WiMu: Hilfe bei regulärem Ausdruck

Liebes Forum,

ich hoffe, ich bin mit "Programmiertechnik" im richtigen Themenbereich ...

also folgendes Problem: ich bräuchte einen regulären Ausdruck, der natürliche Sprache (Deutsch) in einzelne Sätze aufteilt. Die Texte, die gematcht werden sollen, sind sich sehr ähnlich (Biographien) und man kann in etwa voraussehen, was an Strings zu erwarten ist.
Bis jetzt versuche ich es damit:

$saetze = preg_split('/([a-z“]{3,})\.\s*[A-ZÄÖÜ]/', $text, -1, PREG_SPLIT_DELIM_CAPTURE);

... also grob gesprochen ist ein Satz definiert als Folge dreier Kleinbuchstaben, Punkt, Leerzeichen, Großbuchstabe. Das funktioniert einigermaßen - bis auf ein paar Abkürzungen wie "geb., bzw., usw. ...". Die würde ich nun einzeln herausnehmen. Aber wie? Reguläre Ausdrücke sind nicht gerade meine Stärke ...

Beste Grüße und vielen Dank im voraus,
WiMu

  1. Warum müssens denn reguläre Ausdrücke sein?

    Ersetze sämtliche Infos die du nicht trennen willst mit einem Platzhalter der so im Text sicher nicht vorkommt

    geb. wird zu holla###geb###holla usw.

    Dann trennst du mit preg_split()[1] an den gewünschten Satzzeichen in Sätze und machst die Ersetzung von vorher wieder rückgängig.

    [1] ja, PCRE - aber die Ausdrücke sind einfacher

    1. Dankeschönst ... manchmal hat man einfach ein Brett vorm Kopf.

      Grüße,
      WiMu