Sandra Hold: Doppelte EInträge Filtern

Hallo,

Gibt es eigentlich ein OpenSource-Projekt o.ä. das sich mit dem Thema Doppelte Datensätze Suchen und Entfernen beschäftigt?
Dabei geht es mir nicht um eindeutig Doppelte Datensätze, sondern um Phonetisch oder Syntaktisch gleiche D.-Sätze.

Sprich:

Myer  Berliner Str. 5
Meier  Berliner Str. 5
Meier  Berliner-Straße 5

Ich könnte mir die Software so vorstellen, dass man einmal in einer Konfigurationsdatei seine MySql-Verbindungsdaten angibt und dann über einen Assistenten/Wizard die Felder definiert wonach gesucht werden soll sprich Name und Straße ect.

Danach Spuckt die Software so fälle wie oben beschrieben aus und man sagt nur noch welchen man davon behalten möchte. Oder gar Vollautoamtisch (Doch wie hoch ist da die Wahrscheinlichkeit, dass berechtigte Datensätze gelöscht werden!?) Hat jemand mit einer solchen Technik/Herangehensweise/Software Erfahrungen die er hier kurz berichten könnte?

Danke
Sandra Hold aus Berlin :-o

  1. Hello,

    [...] Doch wie hoch ist da die Wahrscheinlichkeit, dass berechtigte Datensätze gelöscht werden?

    die ist sehr hoch.
    Außerdem müssen Daten oft auch erst noch verdichtet werden, also aus mehreren Datensätzen, die augenscheinlich zusammen gehören, also dasselbe Objekt beschreiben, die Daten zusammengetgragen werden. Wenn dann Widersprüche auftreten, kommt man auch heute noch nicht um eine händische Nachpflege herum.

    Liebe Grüße aus Syburg bei Dortmund

    Tom vom Berg

    --
    Nur selber lernen macht schlau
    http://bergpost.annerschbarrich.de
  2. Hallo,

    Wie könnte denn ein solches Opensource-Projekt/Artikel lautet?

    Danke
    Sandra Hold aus Berlin :-o