@@Wolfgang:
nuqneH
Ich will nicht in Abrede stellen, dass ASCII irgendwann mal ein 7 Bit Code war. Nach der Unicode-Seite ist er das nicht mehr.
Da habe ich meine Zweifel. Aber das sagten ja auch schon Woodfighter und dedlfix.
Das deutsche Ä zum Beispiel hat in iso 8859-1 den Wert C4. In Unicode hat es auch den Wert U+00C4, nur müsste man dort die Zeichenfolge C400 schreiben wenn ich das so richtig in Erinnerung habe.
Unterscheide zwischen Zeichensatz (Unicode) und Zeichencodierung (du meinst UTF-16)!
Ich habe das Wort Zeichensatz gar nicht verwendet.
Du erwähntest Unicode. Unicode ist ein Zeichensatz.
Weiter schriebst du: „müsste man dort [in Unicode] die Zeichenfolge C400 schreiben“.
Nein, müsste man nicht; sondern das Zeichen U+00C4 'Ä' wird in UTF-16BE durch die Bytefolge C4 00 codiert.
Du beziehst dich mit „dort“ (womit Unicode gemeint war) auf die Zeichencodierung. Unicode ist aber keine Zeichencodierung.
Nochmals: Unterscheide zwischen Zeichensatz und Zeichencodierung!
Ich habe von der Zeichenfolge gesprochen und aus dem Zusammenhang sollte klar sein,
dass dir der Begriff „Zeichenfolge“ nicht verständlich ist. 'abc' ist eine Zeichenfolge, ebenso 'αβγ', 'абв', 'אבג' (wobei letztere die Folge der Zeichen 'א' gefolgt von 'ב' und 'ג' ist).
dass die Zeichenfolge C400 die Folge der Bytes "C", "4", "0" und "0" ist.
Das ist Unsinn. Ein Byte (8 Bit) kann die Werte von 0 bis xFF = 255 annehmen.
Die Zeichenfolge 'C400' ist die Folge der Bytes 43 34 30 30 in UTF-8 genauso wie in ISO 8859-1. UTF-16BE-codiert ist es die Bytefolge 43 00 34 00 30 00 30 00 (alle Bytewerte hexadezimal).
Qapla'
--
Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
(Mark Twain)