utf8_unicode_ci - "character equalities" von dedlfix, 29.01.2007 23:33

utf8_unicode_ci - "character equalities"

dedlfix 29.01.2007 23:33

datenbank

echo $begrüßung;

ich versuch mich gerade mit Zeichensätzen und Kollationen schlau zu machen um in einer mySQL Datenbank Ähnlichkeits- und Gleichheits-Suchen durchzuführen.

Also z.B. beim Zeichensatz utf8_unicode_ci (oder wäre hier der begriff kollation besser?) gibt es ja die sogenannten "character equalities", was die nette eigenschaft bringt bei mehrsprachigen Datenbankeinträgen "ähnliche Sonderzeichen" zu finden.. (e LIKE é).

Ein Zeichensatz ist eine Ansammlung von Zeichen, z.B. das Alphabet A-Z. Eine Zeichenkodierung ist eine Zuordnung der Zeichen zu einem Wert. Eine Kollation ist ein Satz Regeln zum Vergleichen von Zeichen in einem Zeichensatz.

MySQL fasst unter dem Begriff character set die Ansammlung von Zeichen und deren Kodierung zusammen. Die Sortierregeln werden einem character set zugeordnet, da dies leichter handhabbar zu sein scheint. Sonst müsste man bei jedem Vergleichsvorgang erst alle Zeichen in eine globalgalaktische Tabelle einsortieren, um dann die Sortierregeln darauf anwenden zu können.

Jetzt bin ich mir aber nicht sicher, wo diese Ähnlichkeiten definiert sind. Gibts dazu sowas wir Transformations-tables, gibts dazu nen Algorithmus diese aus irgendwelchen binären Daten zu gewinnen (gleichheiten im binären Zeichencode) oder ist das irgendwie ganz anders gelöst?

Einige Hinweise stehen im Kapitel MySQL Localization and International Usage. Dateien, die sich mit Zeichensätzen und Kollationen beschäftigen findest du in den MySQL-Quellen unter sql/share/charsets und im Verzeichnis strings (ctype-...).

echo "$verabschiedung $name";

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

dedlfix: utf8_unicode_ci - "character equalities"

Beitrag lesen

utf8_unicode_ci - "character equalities"

utf8_unicode_ci - "character equalities"