Philipp Hasenfratz: Ein Beispiel wäre wohl angebracht...

Beitrag lesen

Halihallo Axel

Entwickle also ein KI-System, welches eine Sprache beherrscht, dann kann dieses entscheiden, ob ein Text "zusammengefasst" werden kann. Ein vielversprechender Ansatz hierzu sind Neuronal-Netzwerke, die via Sprachtraining lernen können.
Was ein relevantes Wort ist, hängt, meiner Meinung nach, hauptsächlich vom Fachgebiet der Texte ab, die behandelt werden sollen. Ein allgemein gültiger Ansatz, für Texte _eines_ Fachgebietes, wäre:

Dies scheint wirklich ein Problem zu sein. Die Signifikanz von Wörtern über statistische
Verfahren zu finden ist wohl ein einfacher, manchmal zuverlässiger, aber meisst zu
sehr simplifizierter Prozess. Ich stelle fest, dass durch wissensbasierte Systeme
viel bessere Ergebnisse gewonnen werden können. Das Problem ist schlicht der menschliche
Aufwand den Wortschatz zu kontrollieren und zu erweitern, dies hätte ich eben gerne
ausgelassen.
Es gibt aber schon mehrere Varianten, wie dies einfach und automatisch geschehen könnte.
Über neuronale Netzwerke wäre dies zwar möglich, aber für meine Verhältnisse etwas
"overkill" :-)   eine mögliche Zwischenlösung wäre: Verwandte Dokumente zu indexieren,
aus diesen relevante Wörter zu extrahieren und in allen verwandten Dokumenten
gegenzuprüfuen. Kommt ein Wort in allen kontextgleichen Dokumenten vor, scheint es sich
um ein relevantes Wort für den Themenbereich zu handeln. So könnten wir Themenbereichen
relevante Wörter zuweisen und so die Dokumente klassifizieren und auch automatisch zu-
sammenzufassen. Das Problem hier wäre, dass ein Dokument dann aufgrund der indexierten
Terme eines Themengebietes zusammengefasst wird und somit ggf. nicht die Kernaussagen
des Textes extrahiert werden, da dort spezifische Wörter verwendet werden würden, die
eben nicht als relevant gekennzeichnet sind (also nicht im Themenbereichvokabular vor-
kommen).
Hm. Mir scheint, als ob Negativwortlisten (Stoppwortlisten) wirklich ein akzeptabler
Konsens ist, der wohl die besten Resultate zeigen würde. Diese Stoppwortlisten könnten
auch maschinell erarbeitet werden (ein Wort, dass in einer vielzahl von Dokumenten mit
hoher Frequenz vorkommt, ist ein Stoppwort).

Speichere zunächst alle verschiedenen Worte aller Texte, mit Verweisen auf ihre Herkunft, in einer Datenbank. Wenn ein bestimmter(request for comment) "Wortschatz" aus einer bestimmten(request for comment) Anzahl von Texten angesammelt ist, wende Deine statistischen Ausschlussmethoden darauf an. Filtere also alle von der Gausschen Normalverteilung extrem(request for comment) abweichenden Worte heraus. Wende dies rekursiv an, bis ein Mindestwortschatz(request for comment) entstanden ist.

Halte ich für eine sehr gute Lösung, danke für den Tipp! - Obwohl das leider auf
historische Daten zurückgreift, aber das ist wohl unumgänglich, um gute Resultate zu
bekommen.

Für unterschiedliche Fachgebiete muss es, meiner Meinung nach, jeweils eigene Datenbanken geben. Die Gewichtung von Worten hängt zu sehr vom Fachkontext ab. Das Wort "Ausweiden" wird im Kontext Programmierung eher seltener vorkommen, als im Kontext Jagd.

Tja, hier steht man wieder vor einem anderen Problem: Die Dokumente müssten dann bereits
vor dem indexieren klassifiziert sein, die automatische Klassifikation der Dokumente
basiert jedoch auch auf das Auswerten von Indexausdrücken. Man müsste eine Datenbank mit
Klassen erstellen, zuder einige Deskriptoren (Wörter,Terme) zugeordnet sind. Kommen in
einem Dokument mehrere Deskriptoren einer Klasse vor, gehört dieses Dokument zu jener
Klasse. Dann schaltet sich die Stoppwortliste dieser Klasse ein, welche Negativwörter
löscht und dann wird das Dokument zusammengefasst.

Halleluja, ich will doch bloss ein Summarizer schreiben, puh :-)

@Trekkies: Vielleicht wirds auch gleich ein Exocom (oder wie die Dinger hiessen)
Die werden aber mit "überechtzeit" arbeiten müssen. Da reicht es nicht, dass sie die Sprache in Rechnergeschwindigkeit lernen können, sie müsse die Sprache zur Anforderungszeit gelernt _haben_ können. *g* Du siehst, Sprache kann sogar unmögliches ausdrücken. Eine technische Lösung ist allerdings schon bekannt. Die Exocoms sind halt der Besatzung in der Zeit immer mindestens eine Zeiteinheit voraus; Sie befinden sich in einem anderen Raum-Zeit-Kontinuum.

*g* man müsste ein Exocom sein :-)

Viele Grüsse und Danke

Philipp

--
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.