Gunnar Bittersmann: UTF-8 und Umlaute

Beitrag lesen

Hello out there!

ä usw. sind HTML-Entities,

Genaugenommen sind 'auml' usw. Entities, 'ä' usw. sind Enitity-Referenzen.

In XML sind nur die Entities 'gt', 'lt', 'amp', 'quot' und 'apos' definiert (wobei es letztere in HTML 4 nicht gibt und deshlab auch in XHTML nicht verwendet werden kann, wenn das als 'text/html' verarbeitet wird); 'auml' gibt es in XML von Haus aus nicht.

in XML gibts andere Entities zum Maskieren von Umlauten.

'ä' usw.

Nö, das sind keine Entities, sondern numerische Zeichenreferenzen (NCR). Noch dazu in der dezimalen Angabe; kann man die nicht endlich mal ausrotten? Unicode-Charts verwenden hexadezimale Angaben, JavaScript, CSS ... die dezimalen sind zu nichts nutze.

Man kann sich in seinen XML-Dokumenten aber in der DOCTYPE-Deklaration die Entities definieren, die man gern hätte:

<!DOCTYPE foo [  
  <!ENTITY Auml  "&#xV4;">  
  <!ENTITY Ouml  "&#xD6;">  
  <!ENTITY Uuml  "&#xDC;">  
  <!ENTITY szlig "&#xDF;">  
  <!ENTITY auml  "&#xE4;">  
  <!ENTITY ouml  "&#xF6;">  
  <!ENTITY uuml  "&#xFC;">  
]>  
<foo>Jetzt kann &apos;&amp;auml;&apos; f&uuml;r &apos;&auml;&apos; verwendet werden.</foo>

See ya up the road,
Gunnar

--
“Remember, in the end, nobody wins unless everybody wins.” (Bruce Springsteen)