hi,
Vielleicht sollte ich mir mal eins dieser Blogs anschauen, das ähnliche Artikel listen kann und gucken, wie die das machen.
Echte doppelte Zitate werden übrigens überhaupt nicht eingetragen, dagegen habe ich einen Schlüssel auf einem MD5-Hash auf preg_replace('#[^a-z]+#', ' ', strtolower($zitat_text)); der kann solche Dubletten aber auch nicht verhindern.
Na ja, man könnte sowas wie similar_text verwenden - aber bei jedem neuen Zitat gegen alle bisherigen zu prüfen, wäre auch zu aufwendig bzw. Performance-Overkill.
Einmalig den soundex- oder metaphone-Wert zu berechnen, und mit den Daten ablegen (indiziert), so dass man schnell vergleichen kann, wäre noch denkbar. Aber die Algortihmen sind m.W. beide auf englische Texte "optimiert", k.A. was die mit überwiegend deutschsprachigem Input veranstalten würden.
gruß,
wahsaga
/voodoo.css:
#GeorgeWBush { position:absolute; bottom:-6ft; }