1unitedpower: Ähnlichkeiten von Gruppen bestehend aus zum Teil gleichen Mitgliedern erkennen

Beitrag lesen

Wären in jeder Gruppe 1000 Mitglieder und in Gruppe Fussball und Laufen sind jeweils 999 gleiche Mitglieder wäre die Ähnlichkeit bei fast 100%. Wäre nur 1 Mitglied identisch in beiden Gruppen, läge die Ähnlichkeit der Gruppen bei 0,1%.

Das Vorgehen entspricht der Berechnung der Hamming-Distanz. Wie Rolf b schon erklärt hat, führt das zu Problemen, wenn die Gruppen verschiedene Mitgliederzahlen haben.

Stattdessen könntest du die Anzahl der Operationen (Mitglied hinzufügen/entfernen/ersetzen), die nötig sind, um eine Gruppe in die andere zu überführen, als Maß nehmen. Das entspricht dann der Damerau-Levenshtein-Distanz.

In den beiden Artikeln findest du auch diverse Links zu weiteren Distanz-Funktionen.