Monty Burns: Welchen Zeichensatz verwenden?

in den meta-tags sollte man ja den verwendeten zeichensatz angeben
welchen sollte man den für die deutschen sonderzeichenverwenden?
und wenn man einen zeichensatz benutzt der umlaute kennt, muss man dann noch die umlaute maskieren(ä)?

Monty Burns

  1. hi

    in den meta-tags sollte man ja den verwendeten zeichensatz angeben

    eher muss als sollte.

    welchen sollte man den für die deutschen sonderzeichenverwenden?

    ISO-8859-15 ist der offizielle.

    und wenn man einen zeichensatz benutzt der umlaute kennt, muss man dann noch die umlaute maskieren(ä)?

    da scheiden sich die Geister dran, ob es wirklich nach Spez erforderlich ist. Technisch ist es das, da einige Browser aus dem nicht-Europäischen Raum sonst Probleme kriegen.

    gruss Kai

    1. hi

      und wenn man einen zeichensatz benutzt der umlaute kennt, muss man dann noch die umlaute maskieren(ä)?

      da scheiden sich die Geister dran, ob es wirklich nach Spez erforderlich ist. Technisch ist es das, da einige Browser aus dem nicht-Europäischen Raum sonst Probleme kriegen.

      gruss Kai

      Hi

      in meiner (ersten) Homepage habe ich den Zeichensatz ISO-8859-1 angegeben.
      Die Dateien habe ich mit Ulli Meybohms Editor Phase 5 gechrieben, zunächst ohne die Umlaute zu maskieren.
      Dann habe ich hinterher alle ä, Ä, ö, Ö, ü, Ü maskiert (und gestaunt, wieviele Umlaute in der deutschen Sprache vorkommen).
      Noch mehr hab ich gestaunt: Nach dem erneuten Aufruf der gespeicherten und geschlossenen Dateien waren alle Maskierungen in meinen Texten im Editor verschwunden, aber im Quelltext werden sie angezeigt.
      Also: Wenn man den Editor Phase 5 benutzt, braucht man die deutschen Umlaute nicht zu maskieren, der Editor Phase 5 maskiert automatisch bzw. speichert die Texte nach dem Zeichensatz ISO 8859-1.

      cu erika

      1. Moin!

        Die Dateien habe ich mit Ulli Meybohms Editor Phase 5 gechrieben, zunächst ohne die Umlaute zu maskieren.
        Dann habe ich hinterher alle ä, Ä, ö, Ö, ü, Ü maskiert (und gestaunt, wieviele Umlaute in der deutschen Sprache vorkommen).
        Noch mehr hab ich gestaunt: Nach dem erneuten Aufruf der gespeicherten und geschlossenen Dateien waren alle Maskierungen in meinen Texten im Editor verschwunden, aber im Quelltext werden sie angezeigt.
        Also: Wenn man den Editor Phase 5 benutzt, braucht man die deutschen Umlaute nicht zu maskieren, der Editor Phase 5 maskiert automatisch bzw. speichert die Texte nach dem Zeichensatz ISO 8859-1.

        Das ist ein standardmäßig eingeschaltetes Feature dieses (sehr guten) Editors, wirkt aber normalerweise nur bei HTML-Dateien, aber nicht bei z.B. PHP-Dateien. Maßgeblich ist die Dateiendung.

        Und diese Codierung hat auch absolut nichts mit einer Zeichensatzangabe zu tun, die passiert immer.

        - Sven Rautenberg

    2. hi

      in den meta-tags sollte man ja den verwendeten zeichensatz angeben

      eher muss als sollte.

      welchen sollte man den für die deutschen sonderzeichenverwenden?

      ISO-8859-15 ist der offizielle.

      Wie halten es denn da die Browser?
      Ich habe das gestern mal ausprobiert, den -15 Zeichensatz angegeben und einen nicht maskierten Euro reingemacht.
      Kein Browser (IE5.5, Mozilla, Opera) hat sich daran gehalten, den Euro aber richtig angezeigt, wenn ich von Hand auf -15 gestellt habe.

      Ok, mein Apache hat automatisch immer -1 als charset mitgeschickt.
      Config editiert, nochmal getestet. Jetzt hat sich der IE dran gehalten und den Euro richtig angezeigt, die anderen Browser weiterhin nicht.

      Was macht die Angabe denn bitte für einen Sinn, wenn sich jeder nur einen Dreck drum schert?

      Gruß,
          Stefan

    3. Moin!

      in den meta-tags sollte man ja den verwendeten zeichensatz angeben

      eher muss als sollte.

      Noe. Korrekt ist *kann*. Notwendig ist das fuer den Fall, dass der Server die Information nicht selbst sendet (und viele tun das leider nicht) UND diese Information ueberhaupt relevant ist, d.h. im Dokument werden Zeichen verwendet, die im ASCII-Zeichensatz nicht vorkommen. Das betrifft fuer unsere Gegend vor allem die deutschen Umlaute.

      welchen sollte man den für die deutschen sonderzeichenverwenden?
      ISO-8859-15 ist der offizielle.

      15? Was soll das sein? Latin1 ist ISO-8859-1.

      und wenn man einen zeichensatz benutzt der umlaute kennt, muss man dann noch die umlaute maskieren(ä)?
      da scheiden sich die Geister dran, ob es wirklich nach Spez erforderlich ist. Technisch ist es das, da einige Browser aus dem nicht-Europäischen Raum sonst Probleme kriegen.

      Nach Spec ist dies *nicht* erforderlich, da ja die Zeichensatzangabe extra dafuer da ist, dem Browser zu sagen, wie die Zeichen mit Code>127 gemeint sind, wenn das der Server dieser Aufgabe noch nicht nachgekommen ist. Ein Browser, der damit nicht klarkommt, ist kaputt. (Kennst Du da Beispiele?) Es ist jedoch so, das ein Browser nicht alle existierenden Zeichensaetze unterstuetzen muss. ISO-8859-1 sollte aber eigentlich jeder koennen.

      Die Maskierung als ä ist vielmehr fuer die gedacht, die z.B. Umlaute nicht direkt eingeben koennen (engl. Tastatur), oder um Zeichen zu verwenden, die im spezifizierten Zeichensatz nicht vorkommen (EUR).

      So long

      --
      "Wer den freien Genuss von Cannabis befürwortet, nimmt in verantwortungsloser Weise den Tod von Tausenden junger Menschen in Kauf."
          -- Dr. Edmund Stoiber, 1997

      1. hi

        welchen sollte man den für die deutschen sonderzeichenverwenden?
        ISO-8859-15 ist der offizielle.

        15? Was soll das sein? Latin1 ist ISO-8859-1.

        das ist im Prinzip das gleiche wie ISO-8859-1, nur dass auf Pos. 164 statt des &currency; der € sitzt.

        gruss Kai

        1. Re!

          das ist im Prinzip das gleiche wie ISO-8859-1, nur dass auf Pos. 164 statt des &currency; der € sitzt.

          Na gut, ist vermutlich kein grosser Verlust, das Currency sign. Wer hat das schonmal in Gebrauch gesehen? Aber wird ISO-8859-15 weitgehend unterstuetzt? Und vor allem: Welcher Editor benutzt das bei der Eingabe? Ich meine, vor allem im Windowsbereich wird das Euro-Zeichen (durch AltGr+E) ja nach wie vor kaputterweise auf den Code 128 gelegt. Da hat es wenig sind, dann diesen Zeichensatz im HEAD anzugeben, der Euro ist trotzdem auf der falschen Position.

          So long

          --
          "Wer den freien Genuss von Cannabis befürwortet, nimmt in verantwortungsloser Weise den Tod von Tausenden junger Menschen in Kauf."
              -- Dr. Edmund Stoiber, 1997

          1. hi

            Na gut, ist vermutlich kein grosser Verlust, das Currency sign. Wer hat das schonmal in Gebrauch gesehen? Aber wird ISO-8859-15 weitgehend unterstuetzt? Und vor allem: Welcher Editor benutzt das bei der Eingabe? Ich meine, vor allem im Windowsbereich wird das Euro-Zeichen (durch AltGr+E) ja nach wie vor kaputterweise auf den Code 128 gelegt. Da hat es wenig sind, dann diesen Zeichensatz im HEAD anzugeben, der Euro ist trotzdem auf der falschen Position.

            sieh' dich mal auf <www.pro-linux.de> um, dort findest du alle möglichen und unmöglichen Arten den Euro zu referenzieren durcheinander. Und du kannst dort wunderbar feststellen, dass das einzige, was sicht zum Ziel führt € ist, alles andere geht irgendwie irgendwo daneben!

            gruss Kai

  2. in den meta-tags sollte man ja den verwendeten zeichensatz angeben
    welchen sollte man den für die deutschen sonderzeichenverwenden?
    und wenn man einen zeichensatz benutzt der umlaute kennt, muss man dann noch die umlaute maskieren(ä)?

    Monty Burns

    Meinst Du vielleicht das hier?

    <meta http-equiv="content-type" content="text/html;charset=iso-8859-1">

    iso-8859-1 ist der richtige Zeichensatz. Deutsche benutzer haben dann mit Deiner Seite keine Probleme, wenn üs und ös drin sind. Ich kann mir nur vorstellen, dass ältere Browser damit Probleme haben.

  3. Noch eine Zusatzfrage, nur aus Interesse:

    Wie ist das eigentlich mit dem windows-1251 Zeichensatz, da hat ja schon irgendwie ein Standardisierungs-Gremium sein Placet gegeben, aber wo gibt es da Probleme, afaik stellen Non-Windows System die Zeichen dennoch korrekt da, oder?

    Clemens

    1. Hi,

      Wie ist das eigentlich mit dem windows-1251 Zeichensatz, da hat ja schon irgendwie ein Standardisierungs-Gremium sein Placet gegeben, aber wo gibt es da Probleme, afaik stellen Non-Windows System die Zeichen dennoch korrekt da, oder?

      Win-1251 wird nicht standardisiert werden, denn das ist dasselbe wie ISO-8859-1(5). Microsoft hat den etablierten Standard genommen und, wie üblich, ohne Rücksicht auf Nebenwirkungen (http://google.de/search?q="embrace+and+extend"+microsoft) den für Steuerzeichen reservierten Bereich mit mehr oder minder nützlichen Sonderzeichen aufgefüllt.

      Diese werden auf nicht-Win-Systemen nicht angezeigt, einen Teil davon auch auf Win-Systemen nicht, wenn man im Browser ISO-8859-15 als clientseitiges Default einstellt. Das macht sich besonders bemerkbar, wenn Leute den einzelnen Akzent ´ anstatt des Apostrophs ' tippen. *zähneknirsch*

      Jedenfalls ist die ganze Situation ein Riesenhaufen dampfende Hundekacke. Glücklicherweise gibt es Werkzeuge, die das geflissentlich wegputzen: http://www.fourmilab.ch/webtools/demoroniser/

      Auf Nummer sicher geht man, indem man einfach das sowieso veraltete Konzept der 8-Bit-Zeichensätze fallen lässt und besser SGML-Entities und/oder Unicode benutzt.

      1. hi

        Diese werden auf nicht-Win-Systemen nicht angezeigt, einen Teil davon auch auf Win-Systemen nicht, wenn man im Browser ISO-8859-15 als clientseitiges Default einstellt. Das macht sich besonders bemerkbar, wenn Leute den einzelnen Akzent ´ anstatt des Apostrophs ' tippen. *zähneknirsch*

        Wer seinen Spass haben will: www.racing1.de nutzt massiv diese Zeichen für Anführungszeichen bei Zitaten und hat dabei keine Zeichensatzabgabe. Also ohne den browser manuell auf Windows-1251 zu stellen hat's da stapelweise Fragezeichen. Auf eine Mail dann wenigstens den Zeichensatz anzugeben wurde nicht reagiert.

        gruss Kai

      2. Moin, "Eins-hinter-die-Löffel"!

        Dein Name ist Programm: Es gibt eins hinter die Löffel:

        Win-1251 wird nicht standardisiert werden, denn das ist dasselbe wie ISO-8859-1(5).

        Win-1251 ist der kyrillische Zeichensatz, und hat mit ISO-8859-1 oder -15 absolut nichts gemein - außer vielleicht die Position der Satzzeichen.

        Pendant zu Win-1251 wäre ISO-8859-5 (der offizielle kyrillische Zeichensatz, der aber absolut nicht identisch sein muß).

        Jedenfalls ist die ganze Situation ein Riesenhaufen dampfende Hundekacke.

        Tja, das ist wohl wahr. Wann gibts endlich Unicode-basierende Freeware-XHTML-Webeditoren? ...

        - Sven Rautenberg

    2. Moin!

      Noch eine Zusatzfrage, nur aus Interesse:

      Wie ist das eigentlich mit dem windows-1251 Zeichensatz, da hat ja schon irgendwie ein Standardisierungs-Gremium sein Placet gegeben, aber wo gibt es da Probleme, afaik stellen Non-Windows System die Zeichen dennoch korrekt da, oder?

      Windows-1251 ist nach meinen Informationen (direkt aus der Höhle des Löwen) definiert als Zeichensatz für kyrillische Buchstaben. Was willst du damit? :)

      http://www.microsoft.com/globaldev/reference/wincp.asp

      Außerdem: Der Standard wird von dem gemacht, der ihn definiert. Bei den Windows-Codepages ist Microsoft der Macher, also pfuscht da niemand sonst rein. Praktisch für Herrn Gates, unpraktisch für Kunden von Herrn Jobs (zum Beispiel).

      - Sven Rautenberg