Hellihello Gunnar,
mein "Experiment" habe ich im SciTE unternommen. Der/die/das spuckt das Quadrat aus. Anfangs dachte ich, es wäre die Interpretation eines utf-8-zeichencodes. Nicht die "Fehlermeldung".
ä ist 0xE4, also 11100100 (???), immerhin aber das erste Bit gesetzt,
Nein. „Erstes Bit gesetzt“ bezieht sich nicht auf den Zeichencode, sondern auf die Oktetts bei Codierung in UTF-8. Und da ergibt 'ä' U+00E4 die Oktettsequenz C3 A4: 11000011 10100100. Das erste Bit ist also 1, das zweite auch, das dritte 0.
Ich dachte jetzt so: wenn Latin1-"ä" (Hexal E4) binär durch 11100100 dargestellt wird, dann würde ein uft8-interpreter jetzt meinen: es folgen noch zwei Byte, die zu interpretieren sind. Diese müssen mit 10.. beginnen. Im Latin1-Editor wäre also ein Latin-1-Zeichen einzugeben, was binär mit 10... kodiert wird. (Nicht LF oder CR., die beide mit 0.... beginnen).
In Latin1 wird das "§" binär mit 10100111 dargestellt (hexa A7 in der Latin1-Tabelle). Also würde im Latin1-Editor die Folge "ä§§" die Binärnotation 11100100 10100111 10100111. Bei einer utf-8-Interpretation würden die ersten drei einsen definieren, dass noch zwei Oktetts folgen, die jeweils per Definition mit 10.. beginnen müssen. Ich dachte, so müsste dann irgendein uft-8-Zeichen rauskommen, es sei denn das o.g. ist nicht definiert, und gibt einen Fehler, weil es das nicht gibt und nicht weil das falsch binär kodiert wäre.
Browserabhängig, siehe Thread Was bedeutet dieses Zeichen? �
Bzw. editorabhängig (;-), s.o..
Dank und Gruß,