pl: Wiki: Fehler auf der Regex-Seite

Beitrag lesen

Wiki: Fehler auf der Regex-Seite

pl Homepage des Autors 21.04.2017 20:07

Du brauchst mir die Doku nicht abzutippen, lesen kann ich selber.

Ist er mit dem Ändern in die Formulierung "mit dem Setzen des utf8-Pragmas" korrekter?

Nein. use utf8 bewirkt, dass der Interpreter die in der Script-Datei notierten Literale als "utf-8-kodierte Zeichenketten" betrachtet und nicht als Bytesequenzen -- Das ist das Wesentliche und das gibt die Doku nicht her.

Ansonsten kann man ein Perl-Script in beliebigen Kodierungen abspeichern ohne dieses Pragma setzen zu müssen. use utf8 wird nur gebraucht, wenn mit den im Script notierten Literalen Operationen ausgeführt werden sollen, die zeichenorientiert arbeiten, Stringfunktionen und z.B. auch reg.Expr.

Verstehst du unter "utf-8-kodierte Zeichenketten" etwas anderes als die gemäß UTF-8-Kodierungsvorschrift in Bytes umgewandelten Unicode-Codepoints der jeweiligen Zeichen?

Perl unterscheidet seit Version 5 (2001) zwischen UTF-8-kodierten Zeichenketten und Bytesequenzen. Wenn utf-8-kodierte Zeichenketten nach STDOUT ausgegeben werden, quittiert das der Interpreter mit einer Fehlermeldung "wide character in print...". Deswegen muss vor jeder Ausgabe dafür gesorgt werden dass keine utf-8-kodierten Zeichenketten ausgegeben werden sondern Oktetten (Bytesequenzen). Dabei ist die Bekanntmachung der Kodierung direkt am Layer auch nur eine von mehreren Möglichkeiten. Siehe auch Encode.pm

MfG

Beitrag melden

– Informationen zu den Bewertungsregeln