Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung von Tom, 21.03.2005 14:57

Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung

Tom 21.03.2005 14:57

programmiertechnik

Hello,

hat sich schon mal jemand von Euch intensiver mit der Datenkonsolidierung bei Vorhandensein von Stammdaten aus unterschiedlichen Quellen beschäftigt?

Ich erhalte Objektbeschreibungen aus unterschiedlichsten Quellen. Jeder Einspeiser hat ein eigenes Datenformat. Ich habe darauf auch keinen Einfluss, sondern kann mich glücklich schätzen, überhaupt Daten zu erhalten.

Der wesentliche Kern (größte übereinstimmende Merkmale) besteht aus Postleitzahl (habe ich bereits harmonisiert) und Strasse (bereits in einen einheitlichen Schlüssel umgewandelt). Es gäbe jetzt theoretisch noch einen Namen, aber die sind sehr unterschiedlich formatiert.

Nun hat die eine Quelle eine Telefonnumer, die andere auch, aber ggf. eine andere oder in anderer Schreibweise, die eine hat Bemerkungen im Klartext, die andere hat keine, oder ganz andere oder in anderer Reihenfolge.

Ich muss nun daraus einen möglichst kompakten Datenstamm erzeugen, der alle relevanten Daten (relvant ist, was häufig mit Wert auftritt) in einem Kerndatensatz zusammenfasst. Darüberhinaus muss ein Modell entwickelt werden, wie die übrigen Daten möglichst erhalten bleiben.

Ich möchte mir nun möglichst ersparen, ca. 7.500 Datensätze per Gedächtnis zu ca. 4.500 zusammenzuführen.

Wer hat gute Ideen, wie ich da schon mal automatische Vorauslese betreiben kann und wie ich dann damit weiter verfahren sollte?

Harzliche Grüße aus http://www.annerschbarrich.de

Tom

--
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Tom: Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung

Beitrag lesen

Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung

Doubletten-(Ähnlichkeiten-)Daten-Konsolidierung