Tim Tepaße: Zeichenkodierung: ISO ... vs. Unicode

Beitrag lesen

Ludger,

Unicode ist ein Code und ein Code ist eine Kodierung.

Sehr .. äh .. phantasievoll.

(Du spielst wohl auf UTF an?)

Ja. Auf UTF-8, UTF-16, UTF-16LE, UTF-16BE, UTF-32, UTF-32LE und UTF-16BE im bzw. deren UCS-Pendants. Man könnte auch noch UTF-EBCDIC und UTF-7 dazu nehmen.

Keines dieser Kodierungformate bzw. -schemata ist irgendwie als kanonisch definiert. Weswegen ich auch von Dir konkrete Bytes für das Zeichen 'ä' haben wollte. Dann könnte man endlich sehen, was Du fehlerhaft meinst, wenn Du sagst, dass man etwas "in Unicode kodiert". Du hast es ja leider immer noch nicht geschafft, da etwas anzugeben, obwohl das eigentlich ein Klacks sein sollte.

(Merke: Ich nutze hier den Begriff Kodierung wie jeder andere in dem Bereich, nämlich die Umwandlung eines Code Points im Zeichensatz in tatsächliche Kette von Bits.)

Ein besserer Weg statt dieser Gegenfrage waere es gewesen das was Du geschrieben hast und unverstanden blieb einfach noch mal neu zu schreiben, so zu sagen ein wenig herunterzubrechen.

Ich hab's ja nicht geschrieben, Christian war das. An Deiner Texterfassung solltest Du noch etwas arbeiten. ;)

Er schrieb, dass seine Charset-Routine einen Haufen Zeichen bekommt, mit dem Ziel die in eine Kodierung umzuwandeln. Wenn ein Zeichen dann nicht in der Zielkodierung enthalten ist, wird es in das dazugehörige HTML-Entity in numerischer Notation umgewandelt. Ich frag mich immer noch, was Du daran nicht verstanden haben könntest?

Tim