Max Freeman: Zeichensätze

Hallo zusammen

Ich möchte mal eure Meinungen hören über HTML und Zeichsätz: Konkret geht es um UTF-8, UTF-16 und die 10 ISO Zeichensätze.

  1. Welchen Zeichensatz benutzt ihr in HTML und warum?

  2. Welchen Zeichsatz sollte ich verwenden wenn ich wirklich zu allen Browsern und zu allen Zeichensäzten kompatibel sein muss?

  3. Lohnt es sich in PHP eine Klasse zu schreiben, welche die Umwandlung von Sondernzeichen aus einem XML - File in Unicode zeichen on-the-fly umwandelt?

  4. Wie geht ihr damit um: Fast jeder Browser (ich spreche nicht von exoten) lässt sich auf den Zeichsatz einstellen. Doch nicht alle Browser sind auf den gleichen Zeichensatz eingestellt. Der eine kommt vielleicht mit UFT-8 der andere mit ISO-8859-1. Hat man da überhaupt eine Chance das jemals richtig hinzu bekommen?

Liebe Grüsse

... und danke für eure Stellungnahme (resp. indirekte Beantwortung der Fragen)

Max

  1. Hi,

    Ich möchte mal eure Meinungen hören über HTML und Zeichsätz: Konkret geht es um UTF-8, UTF-16 und die 10 ISO Zeichensätze.

    Du verwechselst Kodierung und Zeichensatz. Siehe auch [pref:t=74726&m=430468]

    1. Welchen Zeichensatz benutzt ihr in HTML und warum?

    ISO 10646 (Unicode) - weil das der einzige für HTML ist.
    Als Kodierung verwende ich üblicherweise ISO-8859-1 - der enthält fast alle von mir benötigten Zeichen, so daß ich nicht viele Entities/numerischen Referenzen verwenden muß.

    1. Welchen Zeichsatz sollte ich verwenden wenn ich wirklich zu allen Browsern und zu allen Zeichensäzten kompatibel sein muss?

    ISO 10646 (Unicode) - weil das der einzige für HTML ist.
    Kodierung: die, die am Besten paßt. Beispiel: Für Seiten, die nur US-7-Bit-ASCII-Zeichen enthält, fände ich UTF-16 unsinnig - weil doppelt so viele Bytes übertragen werden müssen...

    1. Lohnt es sich in PHP eine Klasse zu schreiben, welche die Umwandlung von Sondernzeichen aus einem XML - File in Unicode zeichen on-the-fly umwandelt?

    Kommt drauf an, wie oft Du Zeichen von einer Kodierung in eine andere Kodierung umwandeln mußt.

    1. Wie geht ihr damit um: Fast jeder Browser (ich spreche nicht von exoten) lässt sich auf den Zeichsatz einstellen. Doch nicht alle Browser sind auf den gleichen Zeichensatz eingestellt. Der eine kommt vielleicht mit UFT-8 der andere mit ISO-8859-1. Hat man da überhaupt eine Chance das jemals richtig hinzu bekommen?

    Klar, man hat ja mehrere Möglichkeiten, dem Browser mitzuteilen, welche Kodierung für die Ressource verwendet wird (http-Header, xml-Prolog, meta-Element)

    cu,
    Andreas

    --
    MudGuard? Siehe http://www.Mud-Guard.de/
    1. Also konkretes Beispiel:

      Ich habe auch französischen, italienischen etc. Content auf einer Seite. Nun wenn ich ISO-8859-1 verwende sind die Zeichen èéà. Egal, welchen Zeichensatz ich verwende im Browser es kommt nur Müll raus. Also muss ich wohl die Umwandlung selbst vornehmen über eine extra Klasse. was aber relativ Mühsam ist.

      1. Hi,

        Ich habe auch französischen, italienischen etc. Content auf einer Seite. Nun wenn ich ISO-8859-1 verwende sind die Zeichen èéà. Egal, welchen Zeichensatz ich verwende im Browser es kommt nur Müll raus. Also muss ich wohl die Umwandlung selbst vornehmen über eine extra Klasse. was aber relativ Mühsam ist.

        Welche Kodierungsangaben stehen denn im header, im meta-Element, im XML-Prolog (falls XHTML)?

        cu,
        Andreas

        --
        MudGuard? Siehe http://www.Mud-Guard.de/
        1. Also es ist nur eine reine HTML 4.1 Transitionalseite und als meta-elemt steht natürlich iso-8859-1.