Nun liegen viele Texte vor, die sich häufig in manchen Passagen komplett oder fast 100%ig überschneiden bzw. gleich sind. Nun soll folglich nicht in jedem Datensatz bzw. für jedes Dokument der nahezu identische Abschnitt erneut abgespeichert werden.
Allerdings ist es schwierig nach der Thematik zu suchen und ohne zu wissen, wie man das Verfahren oder diese Algorithmen nennt, komme ich auch nicht weiter.
Du suchst nach Kompressionsalgorithmen.