UTF-8 ISO MIX Wie erkennen und anpassen von Tom, 29.12.2008 22:41

UTF-8 ISO MIX Wie erkennen und anpassen

Tom Homepage des Autors 29.12.2008 22:41

Hello Tim,

Danke, meinst du das?
http://forum.de.selfhtml.org/archiv/2008/9/t176846/#m1164170

ja, das war wohl der zusammenfassende Thread.
Cybaer hatte diese Funktion geschrieben, weil er genauso wie ich, schon früher auf die Fragestellung gestoßen war.

Die "Level" kennzeichnen lediglich, ob in dem untersuchten Text gültige UTF-8-Sequenzen mit 1, 2, 3, oder gar vier Bytes vorkommen. False wird geliefert, sowie eine ungültige Sequenz auftritt.

UTF-8 ist im Prinzip resynchronisierbar, d.h. dass mann das vermeintlich erste Byte einer UTF-8-Sequenz erkennen kann und dann einfach nur feststellen muss, ob die folgenden dazu passen.

Es könnte sich natürlich immer noch um eine lose Bytefolge, also keine lesbaren Texte, handeln.

Eine wirklich sichere Erkennung, ob es sich um UTF-8 handelt, gibt es also nicht, aber man kann zumindest sagen, wenn ein Text kein gültiges UTF-8 ist, bzw. zumindest nicht durchgängig.

Schau Dir mal auf Wikipedia die Erklärungen dazu an.

http://de.wikipedia.org/wiki/UTF-8

Liebe Grüße aus Syburg bei Dortmund

Tom vom Berg

--
Nur selber lernen macht schlau
http://bergpost.annerschbarrich.de

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Tom: UTF-8 ISO MIX Wie erkennen und anpassen

Beitrag lesen

UTF-8 ISO MIX Wie erkennen und anpassen

UTF-8 ISO MIX Wie erkennen und anpassen

UTF-8 Komplettumstellung Probleme?