"Doppeleinträge" in der Zitatesammlung von wahsaga, 15.04.2007 23:58

Beitrag lesen

"Doppeleinträge" in der Zitatesammlung

wahsaga Homepage des Autors 15.04.2007 23:58

sonstiges

+1 Informationen zu den Bewertungsregeln

hi,

Vielleicht sollte ich mir mal eins dieser Blogs anschauen, das ähnliche Artikel listen kann und gucken, wie die das machen.

Echte doppelte Zitate werden übrigens überhaupt nicht eingetragen, dagegen habe ich einen Schlüssel auf einem MD5-Hash auf preg_replace('#[^a-z]+#', ' ', strtolower($zitat_text)); der kann solche Dubletten aber auch nicht verhindern.

Na ja, man könnte sowas wie similar_text verwenden - aber bei jedem neuen Zitat gegen alle bisherigen zu prüfen, wäre auch zu aufwendig bzw. Performance-Overkill.
Einmalig den soundex- oder metaphone-Wert zu berechnen, und mit den Daten ablegen (indiziert), so dass man schnell vergleichen kann, wäre noch denkbar. Aber die Algortihmen sind m.W. beide auf englische Texte "optimiert", k.A. was die mit überwiegend deutschsprachigem Input veranstalten würden.

gruß,
wahsaga

--
/voodoo.css:
#GeorgeWBush { position:absolute; bottom:-6ft; }

Beitrag melden

+1 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

wahsaga: "Doppeleinträge" in der Zitatesammlung

Beitrag lesen

"Doppeleinträge" in der Zitatesammlung

"Doppeleinträge" in der Zitatesammlung