@@Beat:
nuqneH
Eine Datei kann nicht deklarieren
"Ich-bin-LittleEnding-32Bit-Unicodekompatibel"
Doch, mittels BOM.
und die BOM ist so eine Sache, die auf meinem Windows-Perl schief läuft.
Problem deines Windows-Perl, nicht von UTF.
Ja. Ich warte auf einen Unicodepunkt für Delimiter-Start-HTML, Delimiter-End-HTML.
Ganz praktisch wären ja Codepunkte, welchen den Kontextwechsel einer Sprache andeuten.
Not Unicode’s job.
Damit würde sich all das maskieren von selbst aufheben.
?? Escapet werden müssen Zeichen, die im jeweiligen Kontext eine Sonderbedeutung haben. Bspw. wenn " einen String begrenzen, müssen in ihm vorkommende " escapet werden. < und & haben in XML und HTML Sonderbedeutungen, müssen also in Texten und Attributwerten escapet werden.
Ich fühle mich mit Unicode dennoch nicht sehr glücklich. Es gibt einfach keinen direkten Weg, \b über einen ASCII erweiterten Raum zu definieren.
Problem der Implementierung von RegExps, nicht von Unicode.
Unicode hat kein binäres System für Zeichenklassen
Was meinst du damit?
Unicode hält zu jedem Zeichen einige Metainfos bereit. Bspw. für U+0061 'a':
General category: Ll - Letter, lowercase
Canonical combining class: 0 - Spacing, split, enclosing, reordrant, & Tibetan subjoined
Bidirectional category: L - Left-to-right
Uppercase mapping: 0041
Titlecase mapping: 0041
Decimal: 97
Gerade die Idee einer Weltsyntax ist in Unicode überhaupt nicht vorhanden. es ist in sich selbst auch nur ein grosser Setzkasten, und niemand will die Buchstaben noch umsortieren.
Du meinst, dass alle lateinischen Zeichen hintereinander stehen sollten, ohne Zeichen anderer Schriften dazwischen? Hm, das ist nunmal historisch so gewachsen. Ich sehe auch nicht, was sich durch Umsortierung verbessern sollte. Außer dass es geringfügig einfacher sein könnte herauszufinden, zu welcher Schrift ein Zeichen gehört. Dafür müsste man aber ständig Lücken lassen für spätere Erweiterungen.
Qapla'
Alle Menschen sind klug. Die einen vorher, die anderen nachher. (John Steinbeck)