fk: MSSQL Dubletten suchen

Beitrag lesen

mich würde mal interessieren, wie Ihr in MSSQL eine Dublettensuche realisieren würdet.
Ich habe in der Dokumentatin bisher nur Soundex() gefunden. Das genügt meinen Ansprüchen leider nicht.

hier werden nur die vokale rausgeschmissen.

Es soll in einer Kundendatenbank, bei Eingabe eines Kunden geprüft werden, ob dieser schon existiert. Aber natürlich Fehlertolerant.

natürlich

Soundex hilft ja, wenn z.B. Mirosoft eingibt und Microsoft schon existiert.
Allerdings hilft dieser nicht, wenn jemand Micrsoft GmbH eingibt und bereits eine Name "Microsoft Deutschland GmbH" existiert.
Das Programm soll also auch Teilstrings erkennen. Außnahmen, wie z.B. das der gleiche Teilstring GmbH auch erkannt werden würde, würde ich dann einfach in PHP abfangen.

Aber wie würdet Ihr das SQL-Technisch umsetzen ?

wie macht das google ??????

microsaft und mircosoft ist jeweils ein wort. m$ gmbh und m$ profitcenter germany sind jeweils mehrere worte.

daher würde ich (neben der volttextindizierung) diese worte in eine liste zerlegen und jedes dieser worte als vergleich heranziehen.
hier gibts dann wahrscheilnlich eine menge treffer, da gmbh ja vielfach vorhanden ist.
daher muß die tabelle mit sich selbst ge-joint werden, um weitere worte in diese abfrage einzubeziehen. dann reduziert sich die ergebnismenge erheblich.
die ergebniszeile mit den größten treffern ist wahrscheinlich der kunde.