RobRobson: Semantische Texterkennung

Hallo,

gibts schon verwendbare Klassen für php/perl o.ä. die Stukturen in menschlich verfassten Texten semantisch erfassen können?

Auftrag ist, aus Listen die immer ziemlich unterschiedlich aufgebaut sind aber im Grunde ähnliche Informationen enthalten maschinell zu erfassen. Auch eine grobe Aufarbeitung könnte mir schon helfen. Also zB wieviel Listenpunkte entält ein Text, das richtet sich danach wie oft ähnliche Informationen auftreten. Wo fängt ein Punkt an und wo hört er auf. Also erstmal das erkennen der Stuktur würde mir schon weiterhelfen. Es geht nicht darum den ganzen Sinn des Textes zu erfassen. Würde mich auch über Hinweise und Lesestoff freuen.

Danke und viele Grüße,
Rob

PS: opencalais analysiert nur in English und zu Einzelwort orientiert / Gate zu groß / hypknowsys.org leider leere Seite über das Prudukt aus Dr. Karsten Winkler Dissertation

  1. Eine unendliche Aufgabe erfordert unendliche Rechenzeit auf einem Rechner mit unendlichen Ressourcen und natürlich ein unendlich großes Programm.

    Der erste Schritt ist deshalb immer eine endliche Aufgabe zu formulieren.

    "Stukturen in menschlich verfassten Texten semantisch erfassen können" ist zwar endlich aber so weit gefasst, dass die Rechenzeit, die Ressourcen und das Programm immer noch sehr groß sein müssen und gegenwärtig außerhalb des Bereiches des Machbaren liegen. Es könnte sich also lohnen die Aufgabe zu beschränken in dem Du z.B. das "menschlich verfasste Texte" weiter einschränkst und z.B. ein Datenformat beschreibst aus dem hervor geht durch was z.B. eine Liste und ein Listenelement definiert ist.

    Und wenn dieses Datenformat bereits existiert, weil Du z.B. die "Texte" in (X)HTML oder einem der Formate gängiger Textverarbeitungen vorliegen hast, dann sollte Deine Aufgabe lösbar sein.

    Allerdings sollten wir dann auch davon wissen, weil die gegenwärtig gewünschte (beschriebene) Hilfe als unendlich groß und somit nicht leistbar erscheint.

    Du hattest die leere Seite von hypknowsys.org erwähnt. Die enthält nur einen IFRAME mit der Ressource http://hypknowsys.sourceforge.net/. Die gewünschten Inhalte finden sich, wie eine kurze Suche ergab, dann auf der Webseite http://sourceforge.net/projects/hypknowsys/ - die dann leider für die weitere Beschreibung auch wieder nur auf die von Dir genannte und leer erscheinende Webseite verweist. Im Übrigen handelt es sich um ein Java-Tool mit einer Swing-Oberfläche. Ich befürchte, dies hilft Dir nicht.

    1. Hallo Fred,

      schön gesagt. ;)

      Der erste Schritt ist deshalb immer eine endliche Aufgabe zu formulieren.

      Dessen bin ich mir schon bewusst, werde ich auch als ersten Schritt in die Richtung erledigen soweit es möglich ist. Aber das ist ja auch nur der Eingan gder Schnittstelle, hiermit wollte ich schomal schauen ob es schon etwas für den Ausgang der Schnittstelle gibt.

      zu beschränken in dem Du z.B. das "menschlich verfasste Texte" weiter einschränkst und z.B. ein Datenformat beschreibst aus dem hervor geht durch was z.B. eine Liste und ein Listenelement definiert ist.

      tja, das ist genau das Problem, man weiß es ja eben nicht. Ich suche nach einer logik, die eben Strukturen selber erkennt. Zb. Wenn der Fließtext (keine Kommas o.ä. Trenner ) meinetwegen 20 WohnAdressen enthält. Ein menschliches Gehirn sieht das auf den ersten Blick. ;)

      Und wenn dieses Datenformat bereits existiert, weil Du z.B. die "Texte" in (X)HTML oder einem der Formate gängiger Textverarbeitungen vorliegen hast, dann sollte Deine Aufgabe lösbar sein.

      Nein, nur Fließtext, keine Seperationszeichen. Bestenfalls nur innerhalb der Einzelpunkte aber nicht als Trennzeichen.

      Allerdings sollten wir dann auch davon wissen, weil die gegenwärtig gewünschte (beschriebene) Hilfe als unendlich groß und somit nicht leistbar erscheint.

      eigentlich nicht, ich frage ja nur nach verwendbaren Klassen die schon existieren. Bevor ich selber was für mein Problem schreibe. hab jetzt auch nicht erwartet was zu finden. Aber bevor ich mich nach viel Arbeit in den Hintern beiße weils das schon gibt, wollte ich lieber mal gefragt haben. ;)

      »

      Du hattest die leere Seite von hypknowsys.org erwähnt.

      DIAsDEM oder mal bei Xing nach dem Herren suchen und persönlich fragen.