dedlfix: Bei htmspecialchars immer ENT_QUOTES setzen?

Beitrag lesen

Hi!

Sie behandelt nicht die Fälle, die in HTML ebenfalls zu Fehlern führen könnten, wie z.B NUL (Ascii 0).
In der HTML-Spezifikation (4.01) konnte ich im Charset-Kapitel keine Erwähnung. Prinzipiell müssen die Browser auch mit NUL-Bytes im Datenstrom umgehen können, sonst könnten sie nicht UTF-16 als Kodierung annehmen. Wo also macht NUL Probleme?
Ich denke, Du verwechselst Bytes und Zeichen.

Nein, ich weiß aber auch nicht, was Tom konkret gemeint hat. Mit ASCII-0 könnte er ein Byte gemeint haben. Für HTML gilt ansonsten Unicode und da wäre U+0000 eine passendere und eindeutige Bezeichnung.

Und warum soll man es behandeln? Dann käme auch nur � raus, was der Browser ja wieder in seine interne Darstellung von U+0000 umwandeln müsste ...

Dass man in XML das NUL-Zeichen nicht erlaubt, verstehe ich auch nicht so wirklich. Auf den ersten Blick stinkt das ganz fürchterlich danach, dass man Problemen mit NUL in XML-Parser-Libraries aus dem Weg gehen wollte. In C und einigen Derivate gilt NUL als Stringende und ist daher innerhalb eines Strings nicht abbildbar.

... und hätte das Problem nicht gelöst.

Lo!