Axel Richter: Zeichencode Wirrwarr Perl

Beitrag lesen

Hallo,

ich prüfe die uri auf bestimmte Zeichen mit dem regexp=~/[^a-zA-Z_äöüÄÖÜ0-9ß]/
das heisst eigentlich müsste er alles akzeptieren.

Ein URI _kann_ keine Zeichen außerhalb von US-ASCII uncodiert enthalten, auch nicht im path. http://www.faqs.org/rfcs/rfc3986.html
Auch bei Umlaut-Domänen ist der _Client_ zuständig für die Umsetzung. Bsp.: http://www.müller.de wird vom _Client_ umgesetzt in http://www.xn--mller-kva.de.
Es ist also schlecht, mit Umlauten in Pfadangaben zu arbeiten. Das gilt übrigens nicht nur wegen dem URI. Auch im Dateisystem bringt das eigentlich nur Stress. Warum sollte man so etwas also wollen?

Es gibt eine neue Form der URI, die IRI http://www.faqs.org/rfcs/rfc3987.html

Leider macht der IE Probleme, indem er mir in der uri folgenden string gibt, der zeichen enthält, die dem regexp nicht entsprechen:
Falscher Syntax. test mit umläuten

^Unicode

Für IRIs wird, laut RFC, UTF-8 als Codierung empfohlen. Somit hätte der IE hier ausnahmsweise mal Recht.

Aber, wie gefragt: Was willst Du erreichen?

viele Grüße

Axel