Hello,
Wenn Du die Tabelle siehst mit der ich arbeiten soll, dann würdest Du mir eine dicke Portion Mitleid schicken: keine ID, Adressen nicht eindeutig geschrieben (hauptstr. = hauptstr = hauptstrasse = hauptstraße). Durchnummerieren geht nicht, weil die Liste nicht sortiert ist und mehrfache Einträge derselben Person beinhaltet, die - s.o. - auch nicht unbedingt identisch geschrieben sein müssen.
*ach Du arme schwarze Katze* (oder ist es Kater?) :-)
Das sieht fast so aus, wie das Problem bei der Postleitzahlumstellung.
Willst Du mittels dieses Schlüssels Doubletten finden?
Es bietet sich wirklich an, ein extra Suchfeld aufzubauen: die (Plz, Ort,) Straße, Hausnummer normalisieren, im zweiten Schritt dann sichtbare Doppelungen in diesen Feldern tauschen und dann darüber einen Index aufbauen, bzw. die Datei sortieren:
- Case unsensitive Sort ermöglichen
- alle Umlaute ersetzen
- str., str , straße, -, Straße usw. ersetzen gegen strasse
- Leerzeichen rausschmeißen
- Weitere Sonderzeichen rausschmeißen
- usw.
Dann ergibt sich ein vergleichbarer Straßen-String
Unvollständige PLZs markieren
Orte ähnlich verarbeiten, wie Strassen
Über PLZ, Ort und Strasse einen Index (Sortierung) legen und händisch offensichtliche Fehlschreibungen extrahieren, das Suchfeld der Tabelle dagegen abgeleichen.
Nun kannst Du an die Namen gehen...
Es gibt auch fertige Software für solche Zwecke, aber die kostet Geld und bei lächerlichen 10.000 Sätzen und einmaliger Anwendung lohnt sich das noch nicht.
Liebe Grüße aus Syburg bei Dortmund
Tom vom Berg
