fastix®: About: Hilfreiches und sinnfreie Krittelei

Beitrag lesen

Moin!

“Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

Übersetzt: Dessen (gemeint ist HTML 2.0) Zeichensatz beinhaltet die Zeichen aus ISO-8859-1 und stimmt mit ISO-10646 überein.

Ja, „includes“, beinhaltet - aber mitnichten, „besteht ausschließlich aus“.

Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente

Wie können sie dann übereinstimmen?

Dann liefere eine bessere Übersetzung.

ISO-8859-1 als Teilmenge von ISO-10646 und damit UCS zu bezeichnen, erscheint mir die sinnvollere Formulierung zu sein.

Ja. Aber nur diese Teilmenge ist gültig (valid) im HTML-Code sofern HTML 2.0 verwendet wird.

Das ist nicht wegzudiskutieren. Es ist erweislich wahr, dass "der Zeichensatz (= gesamte Vorrat an Zeichen) bei einem HTML-Dokument" gerade nicht "immer Unicode" ist.

Das wurde von anderen behauptet und von mir bestritten.

Im Übrigen ist es auch so, dass bei neueren (X)HTML-Versionen mit der Übermittlung einer Kodierung auch stets eine Einschränkung des Zeichenvorrates stattfindet. Denn wenn man einen "Content-Type text/html" und eine Kodierung sendet, anweist, oder angibt, dann ist ein Zeichen außerhalb dieser Kodierung stets nicht definiert und damit formell ungültig. Also ist der Zeichenvorrat bei einem solchen HTML-Dokument auch dann nicht "Unicode" sondern entspricht dem Vorrat an Zeichen, der durch die Kodierung ohne Entitie-Krücken darstellbar ist.

MFFG (Mit freundlich- friedfertigem Grinsen)

fastix