Henryk Plötz: Japanisch mit numerischen Entities / ISO-8859-1

Beitrag lesen

Moin,

Bezüglich der Byte-Thematik muss ich mich erst entsprechend einlesen, da weiss ich nicht genau, was du meinst.

Es geht einfach darum dass die natürliche Einheit für die Textspeicherung ein Byte ist. Das lässt sich sehr einfach addressieren ("gib mir das dritte Byte", "ich will das sechste bis neunte Byte", etc.) und benutzen. Allerdings kann ein Byte nur 256 verschiedene Werte annehmen, was viel zu wenig für alle möglichen Zeichen ist.

Unicode kennt erstmal keine Bytes sondern Codepoints, also einfach nur ganze Zahlen von Null bis zu einer Obergrenze (die ich mir nicht gemerkt habe weil sie sich eh schon ein paar mal geändert hat). Am Ende kann man aber doch nur Bytes speichern und muß sich etwas ausdenken um eine Folge von Unicode-Codepoints irgendwie in eine Folge von Bytes zu kriegen.

UTF-8 ist eine solche Möglichkeit wobei jeder Codepoint durch ein bis vier (oder waren's sechs?) Bytes dargestellt wird. UCS-4 bzw. UTF-32 ist eine andere Möglichkeit wobei jeder Codepoint durch 4 Bytes repräsentiert wird.

Unter http://dev.mysql.com/doc/mysql/en/Charset-Unicode.html steht jedenfalls, dass UTF-8 zum Speichern von Daten erst seit Version 4.1 funktioniert.

Nein, da steht dass die Datenbank ab der Version UTF-8 versteht und intern als Zeichensatz (blöde Benutzung des Wortes) benutzen kann. Das bringt dir wie gesagt hauptsächlich dass solche Funktionen wie "gib mir das dritte Zeichen" zuverlässig das tun was sie sollen.

Ich habe es mit einer alten MySQL-Datenbank probiert und UTF-8 funktionierte nicht (also wenn ich über ein Formular mit charset=utf-8 Text an die Datenbank geschickt habe), ASCII + Zeichenreferenzen (wenn ich über ein Formular mit charset=ISO-8859-1 Text an die Datenbank geschickt habe) funktionierte hingegen schon...

Das hat damit vermutlich wenig zu tun. Dass mein Perpetuum mobile nicht funktioniert liegt tendentiell auch eher nicht daran dass der Joghurt den ich benutzt habe schon über dem Haltbarkeitsdatum war. Genauso könntest du auf andere Probleme gestoßen sein. Insbesondere das Kapitel der Unterstützung durch Browser ist ein sehr dunkles. Schau mal auf der deutschen Wikipedia, die haben kürzlich auch auf UTF-8 umgestellt und zu dem Zweck diverse Browser getestet und andere Informationen dazu.

Hast Du da einen Link, wo ich das genau nachlesen kann?

http://www.unicode.org/ erscheint mir ein guter Ansatzpunkt zu sein. Ebenso http://www.cl.cam.ac.uk/~mgk25/unicode.html.

--
Henryk Plötz
Grüße aus Berlin
~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~