Jörg Reinholz: Nach dem Krieg um sechs im Kelch!

Beitrag lesen

Es soll nicht ueber irgendwelche billigen Parser Datum und Uhrzeit extrahiert werden sondern ueber maschinelle Lernalgorithmen kontextbezogen die wahrscheinlichsten Elemente fuer Titel, Ort, Uhrzeit und Dauer extrahiert werden.

<sarkasmus>Das wird sich ökonomisch (oekonomisch) nicht rechnen, weil dank Peter Hartz dem IV.  Arbeitskräfte (Arbeitskraefte) jetzt endlich so billig sind wie in den letzten 50 Jahren nicht mehr!</sarkasmus>

Dein Problem ist so komplex wie die Sprache und damit komplexer als ein (1) menschliches Gehirn. Weil Eigenarten von mehreren Sendern berücksichtigt werden müssen. Vermutlich entsteht als mehr Korrektur- und Kontrollbedarf als Du jetzt denkst:

Bedenke bitte, dass es in der menschlichen Sprache auch "Zeitangaben" gibt wie „Nach dem Krieg um sechs im Kelch!" die man durchaus unterschiedlich auffassen kann. Das kann ein Termin sein, das können mehrere sein, das können mehrerer mögliche sein. Auch Deine eigene Unsitte hinsichtlich der Umlaute führt z.B,. wenn man diese mit weiteren kombiniert, zu Problemen: 'nächster Mittwoch', 'naechster Mittwoch', 'na"chster Mittwoch', 'nachster Mittwoch', 'n. Mittw.' und alle Kombinationen müssten erkannt werden. Die Zuverlässigkeit eine solchen Programms dürfte sehr gering sein und in mit der Komplexität des Programms und dem Rechenaufwand negativ korrelieren. Was rauskommt bleibt immer nur eine Vermutung und es stellt sich die Frage nach dem Preis des Irrtums oder einer unterlassenen Korrektur.

Selbst bei "teilweise strukturierten" Text, wird es Probleme geben. Schau mal in den Mails nach, wie oft z.B. das Subjekt einer Terminbenachrichtigung nichts mit der Veranstaltung gemeinsam hat.

Eine denkbare Lösung könnte sein, den Text z.B. mit Copy & Paste in einer Oberfläche anzuzeigen, und mittels eines Kontextmenüs für eine Auswahl dessen Funktion (Titel, Ort, Beginn,...) wählbar zu machen und dann zu übernehmen. Das dürfte die angemessenste Lösung sein. Der von Dir erwähnte, nicht-intelligente "Parser" könnte dabei einige Items und auch die "Übernahme als" gemäß eines Regelsatzes anbieten.

Jörg Reinholz