Ähnlichkeit mit Strings von ruben, 07.03.2006 22:58

Ähnlichkeit mit Strings

ruben Homepage des Autors 07.03.2006 22:58

Hallo,

ich frage mich grade, wie ich am besten eine Ähnlichkeitsüberprüfung realisiere. Ich bin auf levenshtein und similar_string gestoßen, bei denen für mich unverständliche Laufzeitangaben gemacht werden und auf die diversen Einschränkungen hingewiesen wird.
Ich will verhindern, dass man kleine Teile eines mehrteiligen Eintrags abändert, nur damit man spammen kann. Die Daten sind in einer Datenbank und werden wohl viele. Es sind Begriffs-Definitionen, deswegen könnte man die Ähnlichkeitsprüfung auf die Definitionen beschränken (alles andere könnte wohl nach hinten losgehen) und das werden schätzungsweise 1-20 per Wort, in seltenen Fällen auch viel mehr.
Was würdet ihr empfehlen, um die Definitonen in der MySQL-Datenbank mit der neuen abzugleichen? Levenshtein geht nur bis 250 Zeichen oder so, die Definitionen können deutlich länger werden. Gibt es eine gute Reg.Ex, die man dann direkt auf die Datenbank anwenden könnte? Das erscheint mir am schnellsten, aber aus den Fingern saugen, kann ich mir jetzt keine RegEx für alle möglichen Veränderungsmöglichkeiten.

Vielleicht hat jemand schon mal etwas ähnliches bewerkstelligen wollen?

Vielen Dank für Hilfe dazu oder Alternativen,
Ruben

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

ruben: Ähnlichkeit mit Strings

Beitrag lesen

Ähnlichkeit mit Strings

Ähnlichkeit mit Strings