Moin Mathias,
[...] und mache mir daher gar nicht erst die Mühe, das zu unterscheiden.
Vielleicht solltest du damit anfangen und dir die Mühe machen, sonst lässt sich nämlich gar nichts davon verstehen, was Gunnar an deinem Posting korrigiert hat.
doch, ich denke schon, dass ich die Kritik und Denkweise verstehe - nur halte ich diese Denkweise für nicht angebracht bzw. in den meisten Fällen für zu kompliziert (s.u.).
Ein Zeichensatz (wie Unicode) ist eine Liste, die gewissen Zeichen erst einmal Nummern zuweist. Dann sind in dieser Liste noch viele weitere Informationen zu den Zeichen gespeichert, sodass Unicode letztlich eine riesige Datenbank ist.
Eine Kodierung beschreibt, wie man mit Nullen und Einsen diese Zeichen (genauer gesagt deren Unicode-Nummern) kodiert, also im Computer darstellt und speichert. Je nach Kodierung können nur einige bis alle Zeichen aus Unicode kodiert werden (Zeichenvorrat).
So, das klingt verständlich, danke. Und soweit war mir das auch klar. Damit ist klar, dass z.B. die Codierungen UTF-x durch unterschiedliche Repräsentation desselben Codes Zeichen aus dem Unicode-Zeichensatz auswählen.
Trotzdem halte ich es für legitim und in gewissem Maß sinnvoll, auch UTF-8 als Zeichensatz zu bezeichnen und damit den gesamten Komplex (Codierung UTF-8 und Zeichensatz Unicode) zu meinen, da die Assoziation UTF-8 -> Unicode eindeutig, wenn auch nicht umkehrbar eindeutig ist.
Ebensowenig verstehe ich, warum Gunnar Bittersmann als "Keeper of Charsets and Encodings" vehement darauf besteht, dass auch z.B. ISO-8859-x oder Windows-nnnn "nur" Zeichencodierungen seien. Sie erfüllen nämlich *beide* Teile deiner obigen Beschreibung: Sie definieren eine jeweils unterschiedliche Menge von Symbolen (auch wenn "zufällig" alle eine Teilmenge von Unicode sind), und sie definieren auch die Zuordnung von Codes und Symbolen. Dementsprechend wäre ISO-8859-1 Codierung und Zeichensatz in einem.
Natürlich gehört beides zusammen, aber erst die Unterscheidung lässt verstehen, wie numerische Zeichenreferenzen in (X)HTML/XML unabhängig von der jeweiligen Dokumentkodierung funktionieren - sie verweisen nämlich auf den Zeichenvorrat von Unicode als mögliche Zeichen in (X)HTML/XML-Dokumenten und auf die in Unicode festgesetzten Zeichennummern (Codes).
Ist das wirklich so? Meint nicht die numerische Zeichenreferenz eher das Zeichen in der Codierung des Dokuments? Steht nicht in einem Dokument, das etwa in Windows-1252 codiert ist, die NCR € für das Euro-Zeichen? Bei der Notation U+0080 ist die Zuordnung zum Zeichensatz wiederum eindeutig, da ist es definitiv *nicht* das Euro-Zeichen.
Eigentlich kann der Begriff »Zeichensatz« sterben,
Nein, der Ansicht bin ich gerade nicht. Das ist für Fälle, in denen man nicht auf die Einzelheiten der Grund- und Zwischencodierung eingehen muss (oder will), die treffendste Bezeichnung für das Gesamtkonzept vom Code bis zum Symbol - genauso, wie im Laien- und Verkäuferjargon das PC-Gehäuse mit all seinen Einbauteilen als "CPU" bezeichnet wird. Das ist eigentlich auch nicht richtig (es *enthält* u.a. auch die CPU), aber es genügt, denn aus dem Kontext versteht trotzdem jeder, was gemeint ist, ohne dass alle Beteiligten nun wissen müssten, was Mainboard, Grafikkarte, xyz-Controller sind.
Schönes Wochenende noch,
Martin
Man soll den Tag nicht vor dem Abend loben.
Und den Mann nicht vor dem Morgen.
(alte Volksweisheit)