Hallo pl,
Der Hinweis, daß es im Jahr 2000 mit Umlauten keine Probleme gab
… ist falsch. Im Jahre 2000 hat man an diversen Stellen entweder den replacement character � gesehen oder die typischen UTF-8-Sequenzen. Auch die Browser-Unterstützung war bestenfalls mäßig und ziemlich buggy.
Eine byteorientierte Verarbeitung hingegen ist viel weniger fehleranfällig.
Validierung, parsing, etc, pp kann nur fehlerfrei funktionieren, wenn man den Stream als Zeichen liest. Nur schon diese Standard-Aufgabe in einem Parser „skippe alle Whitespaces“ ist nur möglich, wenn man den Stream als eine Menge von Zeichen betrachtet.
Im Gegenteil also, wenn man einen Stream als eine Menge von Bytes betrachtet, macht man seinen Code anfälliger für Fehler.
LG,
CK