Ghostt: [Regex] wiederhollte sätze entfernen

Beitrag lesen

ich habe einen text in dem ähnliche sätze (fast gleiche) vorkommen die doppelt natürlich überflüssig sind . (es handelt sich hierbei um eine liste für die suche autocomplete funktion...)

beispiele:

"Der Text ist fast gleich wie der andere"
"Dieser Text ist etwa genauso gleich wie der andere oben"

Wie kann ich es realisieren das nur ein text stehen bleibt ?

falls das zu kompliziert ist kann man als notlösung auch identische sätze löschen..

lösungsansatz:

$text = ereg_replace("\b(\w+)\b\s*\1\b","",$text);

http://www.codeproject.com/KB/dotnet/regextutorial.aspx (unter Punkt 20. \b(\w+)\b\s*\1\b Find repeated words )