cayaphas: utf8_unicode_ci - "character equalities"

Beitrag lesen

tach,

ich versuch mich gerade mit Zeichensätzen und Kollationen schlau zu machen um in einer mySQL Datenbank Ähnlichkeits- und Gleichheits-Suchen durchzuführen.

Ich die ganze Sache schon irgendwie verstanden, bleib aber an einem verständnisproblem hängen.

Also z.B. beim Zeichensatz utf8_unicode_ci (oder wäre hier der begriff kollation besser?) gibt es ja die sogenannten "character equalities", was die nette eigenschaft bringt bei mehrsprachigen Datenbankeinträgen "ähnliche Sonderzeichen" zu finden.. (e LIKE é).

Jetzt bin ich mir aber nicht sicher, wo diese Ähnlichkeiten definiert sind. Gibts dazu sowas wir Transformations-tables, gibts dazu nen Algorithmus diese aus irgendwelchen binären Daten zu gewinnen (gleichheiten im binären Zeichencode) oder ist das irgendwie ganz anders gelöst?

Ich google mich seit Stunden durchs Netz, wälz irgendwelche MySQL manual Seiten, bin aber noch nicht dahintergestiegen.

Letztlich würde ich nur gerne wissen welche Zeichen als "equal characters" angesehen werden.

Mir würds schon reichen, wenn ich wüsste nach was ich suchen muss.

gruss
caya