ChrisB: About: Hilfreiches und sinnfreie Krittelei

Beitrag lesen

Hi,

Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente

Wie können sie dann übereinstimmen?

Dann liefere eine bessere Übersetzung.

Nein, interpretiere du bitte erst mal den Satz korrekt.

“Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

Nicht ISO-8859-1 ist hier das, was “agreed”, sondern “its document character set [...] agrees with [ISO-10646]”

Ja. Aber nur diese Teilmenge ist gültig (valid) im HTML-Code sofern HTML 2.0 verwendet wird.

Das ist nicht wegzudiskutieren.

Ebenso wenig ist es relevant.

Bestehende HTML 2.0-Dokumente mögen heutzutage noch vereinzelt „Bestandsschutz“ genießen - aber niemand, der noch alle Tassen im Schrank hat, wird HTML-Dokumente heutzutage noch nach diesem Standard erstellen.

Es ist erweislich wahr, dass "der Zeichensatz (= gesamte Vorrat an Zeichen) bei einem HTML-Dokument" gerade nicht "immer Unicode" ist.

Für HTML nach den aktuellen Standards ist es sehr wohl war.

Im Übrigen ist es auch so, dass bei neueren (X)HTML-Versionen mit der Übermittlung einer Kodierung auch stets eine Einschränkung des Zeichenvorrates stattfindet. Denn wenn man einen "Content-Type text/html" und eine Kodierung sendet, anweist, oder angibt, dann ist ein Zeichen außerhalb dieser Kodierung stets nicht definiert und damit formell ungültig. Also ist der Zeichenvorrat bei einem solchen HTML-Dokument auch dann nicht "Unicode" sondern entspricht dem Vorrat an Zeichen, der durch die Kodierung ohne Entitie-Krücken darstellbar ist.

Hier machst du eben wieder den Fehler, mit dem diese ganze Diskussion ihren Anfang nahm.

http://www.w3.org/TR/1999/REC-html401-19991224/charset.html#h-5.1:
“The ASCII character set is not sufficient for a global information system such as the Web, so HTML uses the much more complete character set called the Universal Character Set (UCS), defined in [ISO10646].
[...]
The document character set, however, does not suffice to allow user agents to correctly interpret HTML documents as they are typically exchanged -- encoded as a sequence of bytes in a file or during a network transmission. User agents must also know the specific character encoding that was used to transform the document character stream into a byte stream.”

Hier wird deutlich zwischen dem document character set und dem character encoding unterschieden - eine Differenzierung, zu der du dich immer noch nicht willens oder in der Lage zeigst.
Es ist also ganz offensichtlich richtig und notwendig, dich darauf hinzuweisen - was Gunnar anfangs tat.

So lange du das nicht ändern kannst oder willst, gibt es hier für mich nichts weiter mit dir zu diskutieren.

MfG ChrisB

--
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?