Tach!
Was immer das sein mag. Anyway, du meinst "immer noch unverändert". Ja klar, siehe oben. An ein paar Ziffern kannst du keine Zeichencodierung ablesen.
Genau so ist es. Sobald Buchstaben drin vorkommen ist es UTF-8, war mir aber nicht bewusst.
Nein. Wenn nur Zeichen aus dem ASCII-Bereich vorkommen, gibt es keine Unterscheidung zwischen ASCII, UTF-8 und ISO-8859-x.
Das mit den Zeichenkodierungen ist tatsächlich etwas verwirrend, weil ich nicht weiß wie und wo die Zeichenkodierung innerhalb einer Datei deklariert wird.
Es gibt keine generelle Stelle für die Angabe der Kodierung von Dateien. Das müsste auch irgendwo außerhalb stehen und nicht im Inhalt. Wenn man erst den Inhalt lesen müsste, um an die Kodierungsangabe zu gelangen, müsste man zuerst wissen, nach welcher Kodierung man den Inhalt dekodieren muss, um dann die Kodierungsangabe entziffern zu können. Du siehst die theoretische Unmöglichkeit eines solchen Vorhabens? Das klappt so lediglich bei HTML-Dateien, bei denen festgelegt ist, dass ohne UTF-16/32-BOM die Kodierungsangabe zu ASCII kompatibel in den ersten 512 (oder so) Bytes drinsteht. Für andere Dateiformate mag es irgendein anderes Kennzeichen geben, aber bei Plaintext gibt es rein gar nichts (außer der BOM).
dedlfix.