Moin!
Die Darstellung der 1-Byte-Zeichen ist zwar mit der 2-Byte-Kodierung (und 3-Byte-, und 4-Byte, ...) möglich aber nicht erlaubt. Die 2-Byte-Kodierung wird nur für die Zeichen von 80h bis 7FFh verwendet. Zitat Wikipedia: "Das gleiche Zeichen kann theoretisch auf verschiedene Weise kodiert werden. Jedoch ist nur die jeweils kürzestmögliche Kodierung erlaubt."
Wenn der Codierungsalgorithmus Redundanzen enthält, die nicht gewollt und nun auch ungenutzt beleiben müssen, ist er Schrott.
Der Algorithmus enthält keine Redundanzen. Definiert ist, dass man von mehreren theoretisch möglichen Codierungsformen immer die kürzeste verwenden muß.
Wenn man z.B. das @-Zeichen codieren will, muß man den Codepoint U+0040 codieren. Aber je nachdem, wieviele Nullen man voranstellt, kann man durchaus eine so lange Zahl generieren, dass man (zumindest theoretisch) - praktisch ist das ja verboten) auch mehr als ein Byte verwenden könnte.
Das kann ich mir nicht wirklich vorstellen. Ich denke eher, dass die Wiki-Seite hier einen Denkfehler enthält. Aber das könnte ja ggf. die RFC beantworten.
Du solltest nicht nur Vorstellungen entwickeln, sondern auch Vertrauen in Aussagen anderer. :) Oder selbst nachprüfen, was andere sagen. Aber die Kombination aus "kann ich mir nicht vorstellen, gucke ich aber auch nicht selbst nach" ist für das Erreichen von Diskussionsergebnissen eher hinderlich.
- Sven Rautenberg
My sssignature, my preciousssss!