UTF-8 bietet vor allem den Vorteil, dass man deutlich mehr Zeichen zur Verfügung hat.
?? Was genau meinst du mit „zur Verfügung hat“? Der Zeichensatz eines jeden HTML-Dokuments ist Unicode – völlig unabhängig von der Zeichencodierung. [DOC-CHARSET]
Hm: Interpreter nehmen an, dass die Bits und Bytes nach einer Unicode-umsetzenden Charset Ideologie zu erfassen seien.
Eine Datei kann nicht deklarieren
"Ich-bin-LittleEnding-32Bit-Unicodekompatibel"
und die BOM ist so eine Sache, die auf meinem Windows-Perl schief läuft.
Der Vorteil einer geeigneten Zeichencodierung (also UTF-8) ist, dass man alle Zeichen auch als solche im Quelltext verwenden kann und nicht auf Escapes ausweichen muss.
Ja. Ich warte auf einen Unicodepunkt für Delimiter-Start-HTML, Delimiter-End-HTML.
Ganz praktisch wären ja Codepunkte, welchen den Kontextwechsel einer Sprache andeuten. Damit würde sich all das maskieren von selbst aufheben.
Das wiederum ist jedoch mit dem Nachteil verbunden, dass diese teilweise verwechselt werden können.
?? Du meinst, dass man lateinisches 'a' und kyrillisches 'а' schwer unterscheiden kann? Auch das hat nichts mit der Zeichencodierung zu tun.
Nein es hat primär damit zu tun, dass der Mensch mit 0 und 1 relativ wenig anfangen kann, wenn diese massenweise auftreten.
Als zusätzlichen kleinen Vorteil kann man ansehen, dass UTF-8 inzwischen zum Esperanto der Zeichensätze geworden ist
Nein!! UTF-8 ist kein Zeichensatz! Lies Zeichencodierung für Anfänger.
Das falsche Label haftet auch einigen HTML und HTTP Angaben an.
Wir hantieren nicht mehr mit Setzkästen, es sei denn, wir sehen unsere Tastatur als eine Art Setzkasten... Es ist der Setzkasten, der zur praktischen Anwendung von Unicode-Punkten im Wege steht.
Ich fühle mich mit Unicode dennoch nicht sehr glücklich. Es gibt einfach keinen direkten Weg, \b über einen ASCII erweiterten Raum zu definieren.
Unicode hat kein binäres System für Zeichenklassen, und die verschiedenen Encodings, die Unicode darstellen, deshalb auch nicht. Es geht nur mit Bibliotheken.
Gerade die Idee einer Weltsyntax ist in Unicode überhaupt nicht vorhanden. es ist in sich selbst auch nur ein grosser Setzkasten, und niemand will die Buchstaben noch umsortieren.
Böses bleibt immer entwicklungsfähig. Nur Gutes ist Gut.
mfg Beat
><o(((°> ><o(((°>
<°)))o>< ><o(((°>o
Der Valigator leibt diese Fische