Hi!
Sie behandelt nicht die Fälle, die in HTML ebenfalls zu Fehlern führen könnten, wie z.B NUL (Ascii 0).
In der HTML-Spezifikation (4.01) konnte ich im Charset-Kapitel keine Erwähnung. Prinzipiell müssen die Browser auch mit NUL-Bytes im Datenstrom umgehen können, sonst könnten sie nicht UTF-16 als Kodierung annehmen. Wo also macht NUL Probleme?
Ich denke, Du verwechselst Bytes und Zeichen.
Nein, ich weiß aber auch nicht, was Tom konkret gemeint hat. Mit ASCII-0 könnte er ein Byte gemeint haben. Für HTML gilt ansonsten Unicode und da wäre U+0000 eine passendere und eindeutige Bezeichnung.
Und warum soll man es behandeln? Dann käme auch nur � raus, was der Browser ja wieder in seine interne Darstellung von U+0000 umwandeln müsste ...
Dass man in XML das NUL-Zeichen nicht erlaubt, verstehe ich auch nicht so wirklich. Auf den ersten Blick stinkt das ganz fürchterlich danach, dass man Problemen mit NUL in XML-Parser-Libraries aus dem Weg gehen wollte. In C und einigen Derivate gilt NUL als Stringende und ist daher innerhalb eines Strings nicht abbildbar.
... und hätte das Problem nicht gelöst.
Lo!