Matzberger Marcus: Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung

Beitrag lesen

Hallo,

Der wesentliche Kern (größte übereinstimmende Merkmale) besteht aus Postleitzahl (habe ich bereits harmonisiert) und Strasse (bereits in einen einheitlichen Schlüssel umgewandelt). Es gäbe jetzt theoretisch noch einen Namen, aber die sind sehr unterschiedlich formatiert.

Ich gehe davon aus, dass zumindest eine Trennung in Vor- und Nachname erfolgt ist. Dann könntest du einen Teilstring des Namens aus einem Datensatz mit den Datensätzen vergleichen, die aufgrund Postleitzahl (und Straße) in Betracht kommen. Vorsicht gilt natürlich bei Namen wie Mayr/Meier oder Schmid/Schmidt, die in verschiedenen Schreibweisen vorkommen, deshalb auch Teilsstring.
Je nach Datenbank stehen auch Funktionen wie SOUNDEX() zur Verfügung, die solche Ähnlichkeiten berücksichtigen, außerhalb der englichen Sprache sind sie allerdings nicht immer zuverläßig.

Darüberhinaus muss ein Modell entwickelt werden, wie die übrigen Daten möglichst erhalten bleiben.

Man könnte eine Tabelle anlegen, in der die ursprünglichen Datensätze abgelegt werden, verbunden mit dem bereinigten Parter und als historisch gekennzeichnet.

Grüße
Marcus

--
Wenn der Weg das Ziel ist, ist das Ziel dann weg?