cheops: Phrasen erkennen

Beitrag lesen

Hallo zusammen,

ich würde gerne in einem umfangreichen Text existierende Phrasen erkennen. Am Ende soll es Richtung Keyword-Density gehen, was auf Basis von einzelnen Wörtern ja noch einfach ist... aber was ist bei Begriffen, die aus 2 oder mehr Begriffen bestehen?

Angenommen ich habe einen Text von einem Gärtner und dort kommt immer wieder der Begriff "grüne Tomaten" vor, dann will ich diese Kombination an sicht betrachten und nicht die Dichte für "grüne" und "Tomaten" ermitteln... sondern halt für "grüne Tomaten".....

Hat jemand einen programmatischen Ansatz, wie man das am besten lösen kann? Mir schwebt spontan nur ein recht "teurer" Algorithmus mit zahlreichen Rekursionen ein, aber da muss es was besseres geben....

Danke & Gruß
Marcus