Rolf Rost: Umlaute und Valides HTML

moin,

nun hab ich es endlich geschafft:
This Page Is Valid HTML 4.0 Transitional!
Geschafft! Bis auf ein paar kleine Fehler in einzelnen CGIs...

Jedoch: Bis gestern hatte ich in einigen Links da noch Umlaute drin, ein Kollege wies mich darauf hin, dass genau diese Links mit einem englischen Browser nicht funktionieren.

Das erscheint mir ein wenig widersprüchlich, die Seiten sind als
<meta http-equiv="content-type" content="text/html; charset=ISO-8859-1">
deklariert und der Validator hat auch bei diesen Links nicht gemeckert (mittlerweile umgeschrieben).

Ja wie ist das nun, müssen deutsche Umlaute generell umgeschrieben werden und dürfen in einer URI nicht verwendet werden?

Rolf

  1. Hi,

    Ja wie ist das nun, müssen deutsche Umlaute generell umgeschrieben werden und dürfen in einer URI nicht verwendet werden?

    http://selfhtml.teamone.de/html/allgemein/referenzieren.htm#uri

    http://www.ietf.org/rfc/rfc1630.txt

    HTH

    wunderwarzenschwein

    --
    ss:} zu:$ ls:} fo:| de:] va:) ch:? sh:( n4:# rl:? br:> js:| ie:( fl:{ mo:)
    1. Ja wie ist das nun, müssen deutsche Umlaute generell umgeschrieben werden und dürfen in einer URI nicht verwendet werden?

      http://www.ietf.org/rfc/rfc1630.txt

      Soll heißen: Du kannst Umlaute benutzen, solltest aber nicht. Das Problem wäre auch garnicht das Dokument selber, denn dort sorgt die Zeichensatzangabe für die richtige Darstellung*, sondern die Übermittlung im HTTP-Protokoll. Der Datenkopf ("header") der Anfrage kennt keinen Zeichensatz, von daher sollte man dort auch mit Ausnahme von ASCII tunlichst keine Zeichensatz-spezifischen Geschichten benutzen.

      Gruß,
        soenk.e

      *: Es ist durchaus angebracht, in hierzulande erstellten HTML-Dokumenten keinerlei andere Zeichen als ASCII direkt zu verwenden und alles andere mit der bekannten &bla;-Syntax zu maskieren.
      Windows-Nutzer sind sich in der Regel nicht im Klaren darüber, daß Ihr System _nicht_ den Standard-iso-8859-1-Zeichensatz (leider häufig als "erweitertes ASCII" bezeichnet) benutzt, sondern einen Windows-eigenen, der zwar in weiten Teilen aussieht wie iso-8859-1, aber nicht exakt identisch ist. In Folge dessen bekommt jeder Nicht-Windows-Nutzer sowie jene, die iso-8859-15 (wegen des Eurozeichens) im Browser eingestellt haben, mittlerweile im Netz leider haufenweise Seiten mit Fragezeichen angezeigt (häufigste Ursache: das Eurozeichen, gefolgt von Anführungszeichen - beides an Windows-eigenen Positionen).

      1. hi Sönke,

        Ja wie ist das nun, müssen deutsche Umlaute generell umgeschrieben werden und dürfen in einer URI nicht verwendet werden?

        http://www.ietf.org/rfc/rfc1630.txt

        Soll heißen: Du kannst Umlaute benutzen, solltest aber nicht. Das Problem wäre auch garnicht das Dokument selber, denn dort sorgt die Zeichensatzangabe für die richtige Darstellung*, sondern die Übermittlung im HTTP-Protokoll. Der Datenkopf ("header") der Anfrage kennt keinen Zeichensatz, von daher sollte man dort auch mit Ausnahme von ASCII tunlichst keine Zeichensatz-spezifischen Geschichten benutzen.

        Jow, danke, jetzt ists klar.
        Schönes Wochenende, Rolf

        PS: Auf http://perlbase.xwolf.de/cgi-bin/perlbase.cgi?dis.10.18 hab ich mal die Möglichkeit beschrieben wie ein kompletter QUERY_STRING Base64_encodet/decodet werden kann. Das ist jedoch noch ein *experimentelles Feature*, wäre jedoch eine Variante zur Steuerung eines CGIs über den URI wobei die komplette Parameterliste keine *Problemzeichen* enthält.