Moin!
http://tools.ietf.org/html/rfc1866
unter 1.2.1. nachlesen, dann 13. und dann 9.5.
Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument nicht immer Unicode.
Mag HTML 2.0 sein - aber wer bitte hat denn "immer" gesagt?
MFFG (Mit freundlich- friedfertigem Grinsen)
fastix