Hilfe bei regulärem Ausdruck von WiMu, 07.07.2011 14:07

Hilfe bei regulärem Ausdruck

WiMu 07.07.2011 14:07

programmiertechnik

Liebes Forum,

ich hoffe, ich bin mit "Programmiertechnik" im richtigen Themenbereich ...

also folgendes Problem: ich bräuchte einen regulären Ausdruck, der natürliche Sprache (Deutsch) in einzelne Sätze aufteilt. Die Texte, die gematcht werden sollen, sind sich sehr ähnlich (Biographien) und man kann in etwa voraussehen, was an Strings zu erwarten ist.
Bis jetzt versuche ich es damit:

$saetze = preg_split('/([a-z“]{3,})\.\s*[A-ZÄÖÜ]/', $text, -1, PREG_SPLIT_DELIM_CAPTURE);

... also grob gesprochen ist ein Satz definiert als Folge dreier Kleinbuchstaben, Punkt, Leerzeichen, Großbuchstabe. Das funktioniert einigermaßen - bis auf ein paar Abkürzungen wie "geb., bzw., usw. ...". Die würde ich nun einzeln herausnehmen. Aber wie? Reguläre Ausdrücke sind nicht gerade meine Stärke ...

Beste Grüße und vielen Dank im voraus,
WiMu

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

WiMu: Hilfe bei regulärem Ausdruck

Beitrag lesen

Hilfe bei regulärem Ausdruck

Hilfe bei regulärem Ausdruck