dedlfix: About: Hilfreiches und sinnfreie Krittelei

Beitrag lesen

Hi!

Und was wäre, wenn es doch so ist? Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.
Nö.

Da kannst du dich drehen und winden, wie du willst, das ist in der HTML-Spezifikation so festgelegt. ChrisB zitierte die relevante Stelle bereits.

Abhängig von der gewählten Codierung ist als "der Zeichensatz" erst einmal der Vorrat an Zeichen zu betrachten, der mit in der gewählten Kodierung ohne Krücken wie Entities übertragbar ist.

Der für HTML insgesamt definierte Vorrat und der durch die gewählte Codierung eines einzelnen HTML-Dokuments repräsentierbare Vorrat sind durchaus zwei verschiedene Dinge. Mit der Dokumentkodierung können unter Umständen nicht alle Zeichen direkt transportiert werden, wenn mit dieser weniger als die in Unicode definierten Zeichen kodierbar sind. Zu jeder Kodierung gehört natürlich auch ein Zeichenvorrat, dessen Zeichen mit der Kodierung(svorschrift) in eine konkrete für die Datenverarbietung nutzbare Form gebracht werden kann. Somit hast du den für HTML nutzbaren Zeichenvorrat auf der einen Seite und den mit der Dokumentkodierung direkt darstellbaren auf der anderen Seite.

Und das ist bei ISO 8859-2 eben nicht "UTF". "UTF" gibt es nicht Zeichensatz.

Hab ich nicht behauptet. ISO-8859-x oder UTF-x wären Kodierungen eines konkreten HTML-Dokuments. Der insgesamt verwendbare Zeichenvorrat bleibt weiterhin Unicode. Mit ISO-8859-x bekommst du jeweils 255 Zeichen daraus direkt und über die Ersatzschreibweisen auch alle anderen Zeichen in einem konkreten HTML-Dokument transportiert. Mit den UTF-x-Kodierungen sind alle Unicode-Zeichen ohne Umwege repräsentierbar.

Es gibt aber "Universal Character Set" mit dem Akronym ("UCS").

Der Unterschied zwischen Unicode und ISO 10464/UCS ist praktisch bedeutungslos. Deshalb kann man im Allgemeinen problemlos von "Unicode" sprechen, wenn man den Zeichenvorrat meint, der von beiden Standards beschrieben wird.

Lo!