Hello,
hat sich schon mal jemand von Euch intensiver mit der Datenkonsolidierung bei Vorhandensein von Stammdaten aus unterschiedlichen Quellen beschäftigt?
Ich erhalte Objektbeschreibungen aus unterschiedlichsten Quellen. Jeder Einspeiser hat ein eigenes Datenformat. Ich habe darauf auch keinen Einfluss, sondern kann mich glücklich schätzen, überhaupt Daten zu erhalten.
Der wesentliche Kern (größte übereinstimmende Merkmale) besteht aus Postleitzahl (habe ich bereits harmonisiert) und Strasse (bereits in einen einheitlichen Schlüssel umgewandelt). Es gäbe jetzt theoretisch noch einen Namen, aber die sind sehr unterschiedlich formatiert.
Nun hat die eine Quelle eine Telefonnumer, die andere auch, aber ggf. eine andere oder in anderer Schreibweise, die eine hat Bemerkungen im Klartext, die andere hat keine, oder ganz andere oder in anderer Reihenfolge.
Ich muss nun daraus einen möglichst kompakten Datenstamm erzeugen, der alle relevanten Daten (relvant ist, was häufig mit Wert auftritt) in einem Kerndatensatz zusammenfasst. Darüberhinaus muss ein Modell entwickelt werden, wie die übrigen Daten möglichst erhalten bleiben.
Ich möchte mir nun möglichst ersparen, ca. 7.500 Datensätze per Gedächtnis zu ca. 4.500 zusammenzuführen.
Wer hat gute Ideen, wie ich da schon mal automatische Vorauslese betreiben kann und wie ich dann damit weiter verfahren sollte?
Harzliche Grüße aus http://www.annerschbarrich.de
Tom
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau