Aloha ;)
ich könnte auch sowas gebrauchen. Veranstaltungstermine (Pressetexte) sind oft in Prosa (freie, ungebundene, nicht durch Reim, Rhythmik und Vers gebundene Form der Sprache) geschrieben und müssten auf mehrere Felder wie „Datum”, „Titel“, „Postleitzahl“, „Straße“ ... aufgeteilt werden.
Nun ja, das ist aber ein etwas anderer Fall. Eine Adresse folgt sehr oft, selbst wenn sie in Prosa geschrieben ist, einem bestimmten Muster.
Straßenname - Hausnummer - Postleitzahl - Ort
gegebenenfalls befinden sich Trennzeichen dazwischen (z.B. Kommata), die man noch rauswerfen muss.
Die (deutsche) PLZ kann man relativ einfach finden, dadurch hat man schon einiges gewonnen. Die Hausnummer ist die freistehende Zahlen-Buchstaben-Zeichen-Kombination vor der Postleitzahl, und davor steht der Straßenname.
Wenn die Adresse eingebettet in einen Kontext vorkommt hat man dann noch das Problem, wie man den Straßennamen nach vorne hin eingrenzt. Mögliche Algorithmen dafür hat (ich glaube es war) @Gunnar Bittersmann hier im Thread schon umrissen, und die Straßen, die mit "Straße" beginnen, kann man auch erkennen (an der Zeichenmenge zwischen Straße und Hausnummer).
Die Aufgabe, eine Prosa-Adresse in ihre Bestandteile aufzutrennen, ist demnach also schon eine deutlich einfachere Aufgabe, die mit Sicherheit viel mehr valide Treffer liefert, als die Aufgabe, die der OP hier gestellt hat.
Grüße,
RIDER