suit: Nachtrag

Beitrag lesen

Genau das wäre ja der große Vorteil von utf-8, dass so viele verschiedene Zeichensätze darstellbar sind.

Genau gesagt sind mit UTF-8 nicht viele verschiedene Zeichensätze darstellbar - mit UTF-8 ist sind genau Unicode und ASCII darstellbar.

Der Vorteil ist schlichtweg, dass UTF-8 mit einer einfach lesbaren und trotzdem relativ Platzsparenden 8-bit-Multibyte-Codierung arbeitet. UTF-32 wäre zwar einfacher lesbar, aber nicht platzsparender. UTF-16 ist nur in Sonderfällen platzsparender und auch nicht "einfacher" zu lesen. UTF-7 ist aufgrund der 7-bit-Codierung ebenfalls etwas unpraktisch.

Die ISO-8859-Familie hat einen theoretischen Zeichenvorrat von 2^12 (4096) Zeichen (wobei die unteren 7 bit jeweils 16x vorhanden sind) während Unicode theoretisch etwa 1 Million mal mehr Zeichen (2^32) haben konnte.

Aufgrund der Singlebyte-Codierung der ISO-Familie ist es allerdings nur möglich jeweils 2^8 Zeichen (256) gleichzeitg zu verwenden - das schmälert den potentiellen Zeichenvorrat nochmal. Zudem ist es in einem Dokuement nicht möglich Zeichen oberhalb von 0xA0 aus zwei verschiedenen Zeichensätzen zu verwenden.

Es ist mir ein Rätsel, wieso das woanders nicht funktionieren sollte.

UTF-8 ist ein (die) Unicode-Zeichentransformationsmethodem,d.h. wenn du ein mit UTF-8 codiertes Dokument darstellst, wird dein Browser/System versuchen, das entsprechende Unicode-Zeichen mit der entsprechenden Schriftart darzustellen. Sollte das nicht gelingen, wird versucht eine ersatzzeichen aus einer anderen Schriftart derselben Familie zu wählen (oder aus einer ganz anderen Fallback-Schriftart). Wenn auf keinem dieser Wege ein Zeichen, wird ein Platzhalter-Zeichen angezeigt - ein Fragezeichen, ein Kästchen oder sonstwas.

Alles in allem:
Was der OP wollte, ist es nicht viele verschiedene Zeichen darzustellen sondern die Codierung bei der Darstellung im Editor zu verändern.

Wenn man in Notepad++ in einem ANSI-Dokument "ä" eingibt, gibt es afaik keine Möglichkeit, die Zeichencodierung so umzustellen, dass dort ein ф angezeigt wird. Notepad++ verwendet scheinbar die Codierung des Betriebssytems - also z.B. Windows-1252

---

Natürlich ist UTF-8 die schlauere Wahl - aber es gibt durchaus Situationen, in denen man nur einen 8-bit-Singlebyte-Codierung verwenden kann.