Hallo,
ich würde gerne in einem umfangreichen Text existierende Phrasen erkennen. Am Ende soll es Richtung Keyword-Density gehen, was auf Basis von einzelnen Wörtern ja noch einfach ist... aber was ist bei Begriffen, die aus 2 oder mehr Begriffen bestehen?
spannende Aufgabenstellung. :-)
So ganz genau weiß ich auch noch nicht, wie ich das anstellen würde. Aber mal ins Unreine gedacht: Wenn du eine Liste der Worthäufigkeit aufstellst, speichere doch zu jedem Wort zusätzlich das vorangehende und das nachfolgende Wort. Dann stellst du bei der Auswertung fest:
Das Wort "Tomaten" kommt 26mal im Text vor, bei 19 Vorkommen ist das vorangehende Wort "grüne". Also hast du 19mal die Phrase "grüne Tomaten".
Gut, das ist noch nicht ausgereift, könnte aber mal als Anregung taugen ...
Ciao,
Martin
Der Klügere gibt solange nach, bis er der Dumme ist.
Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(