Hello,
Dann kannst du noch schauen, ob ein 110xxxxx wirklich von einem 10xxxxxx gefolgt wird, oder ob ein 10xxxxxx vorkommt, dessen Vorgänger eben einer ist, der in UTF-8 nicht erlaubt wäre.
Dies scheint mir eine sehr verlässliche Methode zu sein, nicht UTF-8-kodierte Zeichen von Utf-8-kodierten Zeichen zu unterscheiden.
Ich denke da gerade an meine Bemühungen, ASC-Dateien (Text-Dateien) von z.B. EXE-Dateien zu unterscheiden.
Eine echte Textdatei darf keine #0 enthalten.
Genauso könnte man also bei den UTF-8-Dateien vorgehen. Bestimmte Zeichen oder Zeichenfolgen sind hier einfach 'verboten' und damit als "Anti-Signatur" geeignet.
Harzliche Grüße vom Berg
esst mehr http://www.harte-harzer.de
Tom
--
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau
Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
Nur selber lernen macht schlau