rabby: Textuntersuchung: wiederkehrende Strings...

Hallo welt,

bin gerade auf der Suche nach einer geschickten Lösung für folgendes Problem:
Es wird eine Zusammenstellung sämtlicher Texte erstellt, wobei die Speicherung "intelligent" erfolgen soll, da es sich um _sehr_ große Datenmengen handelt. Der Prozess der Zusammenfassung darf beliebig ressourcen-aufwendig sein.
Nun liegen viele Texte vor, die sich häufig in manchen Passagen komplett oder fast 100%ig überschneiden bzw. gleich sind. Nun soll folglich nicht in jedem Datensatz bzw. für jedes Dokument der nahezu identische Abschnitt erneut abgespeichert werden. Hier genügt es im Prinzip, dies einmal zu speichern und im Datensatz für das Dokument dann lediglich einen Verweis zu der Textstelle, die dort eigentlich zu finden wäre, einzubauen.

Google macht es wohl auch nicht anders, wenn es eine Seite cachet:
So würde es zumindest beim Speichern von http://de.selfhtml.org/ beim Footer "© 2007 Seite Impressum" feststellen, dass dieser auf allen Unterseiten genauso vorkommt. Also genügt es, diesen einmal zu speichern. Eventuell merkt es sogar einen Zusammenhang sämtlicher Kategorie-Seiten, wo diese Passage zu finden ist:
"Dieses Kapitel ...
Der Abschnitt besteht aus folgenden Seiten und Unterabschnitten:" und spart sich wieder ein bisschen Speicher.

Nun würde mich interessieren, welche intelligenten Verfahren es gibt, um die wiederkehrenden Textstellen aus sämtlichen Texten zu erkennen.
Ein primitiver Ansatz würde mir zwar einfallen, aber ich gehe doch davon aus, dass es möglicherweise sogar ausgereifte Algorithmen zur Lösung dieses Problems gibt, die ich mir gerne mal durchlesen würde.
Allerdings ist es schwierig nach der Thematik zu suchen und ohne zu wissen, wie man das Verfahren oder diese Algorithmen nennt, komme ich auch nicht weiter.
Könnt Ihr mir den Fachbegriff oder Links, die Euch dazu bekannt sind, bitte nennnen?

Vielen Dank und noch ein schönes Wochenende.
Mit freundlichen Grüßen
Andreas Rabuser

  1. Nun liegen viele Texte vor, die sich häufig in manchen Passagen komplett oder fast 100%ig überschneiden bzw. gleich sind. Nun soll folglich nicht in jedem Datensatz bzw. für jedes Dokument der nahezu identische Abschnitt erneut abgespeichert werden.

    Allerdings ist es schwierig nach der Thematik zu suchen und ohne zu wissen, wie man das Verfahren oder diese Algorithmen nennt, komme ich auch nicht weiter.

    Du suchst nach Kompressionsalgorithmen.