Gunnar Bittersmann: HTML-Zeichenreferenz

Beitrag lesen

@@dedlfix:

nuqneH

Autsch, was muss man da lesen: „Bei 1-Byte-Codierungen (für Zeichensätze mit bis zu 256 Zeichen) spielt die Unterscheidung zwischen Zeichensatz und Zeichencodierung keine praktische Rolle.“
Wenn du jetzt noch erklärst, wie es deiner Meinung nach richtig wäre

Den Satz streichen.

denn ich wüsste jetzt nicht, welcher praktischen Nutzen sich an der Stelle von einer Unterscheidung ergibt.

Die Nichtunterscheidung ist einfach falsch. Das hieße ja, der Zeichensatz eines ISO-8859-1-codierten Dokuments wäre zwangläufig nur Basic Latin plus Latin-1 Supplement. Dem ist aber nicht so, wenn ein Escape-Mechanismus zur Verfügung steht.

So lässt sich bspw. das Zeichen 'ą' in einem ISO-8859-1-codierten HTML-4.01-Dokument durch die Bytefolge 26 23 78 31 30 35 3B codieren.

Und was genau bemängelst du jetzt am Wiki-Text?

Dass erst etwas falsch gesagt wird, was dann berichtigt wird.

Ich finde ja übrigens "als Unicode codiert" nicht richtig. Unicode ist keine Kodierung sondern ein Zeichensatz.

Ja, das ist etwas grenzwertig. Zumindest heit es „_als_ Unicode“, nicht „_in_ Unicode“. Das sollte als „in einer Unicode-Codierung“ („in einer der Unicode-Codierungen“) verstanden werden.

Wenn ich mich recht entsinne, hatte ich überlegt, in der Übersetzung „in einer Unicode-Codierung“ zu schreiben. Die Frage ist: Wie weit sollte man als Übersetzer gehen? Man ist ja nur Übersetzer, kein Co-Autor.

ó
Das eine Zeichen (oder wieviele es nun genau sind)

Zwei. Ó auch. ;-)

Es wäre wichtiger, zu klären ob es triftige Gründe gibt, die gegen eine Umstellung des Projekts auf UTF-8 sprechen.

Wenn die Antwort darauf ja ist, sollte überlegen, ob die Gründe wirklich triftig sind.

Wenn die Antwort darauf ja ist, sollte man zum vorigen Schritt zurückgehen.

Qapla'

--
Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
(Mark Twain)