Versions-Historie des Beitrags „Zeichenkodierung in UFT-8 ?“

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:08

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die in Umgebungsvariablen (wie `$LANG` [und deren Schwestern](https://www.thomas-krenn.com/de/wiki/Locales_unter_Ubuntu_konfigurieren)) eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen (`/[äüößÄÜÖ€]/` wären Kandidaten) die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. Es gibt gefühlt 2 Millionen Editoren - und nur deren Programmierer wissen, was die Dinger genau tun. Manche dokumentieren ja auch nichts. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. Klar ist aber, dass für eine Spekulation über die Kodierung nicht genug und auch noch die falschen Daten vorliegen. Nur das Zeilenende wäre bestimmbar. Und wenn ich ein Ergebnis derart sicher vorhersagen kann, dann spare ich mir das Experiment. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:20

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die in Umgebungsvariablen (wie `$LANG` [und deren Schwestern](https://www.thomas-krenn.com/de/wiki/Locales_unter_Ubuntu_konfigurieren)) eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen (`/[äüößÄÜÖ€]/` wären Kandidaten) die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. Es gibt gefühlt 2 Millionen Editoren - und nur deren Programmierer wissen, was die Dinger genau tun. Manche dokumentieren ja auch nichts. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. Klar ist aber, dass für eine Spekulation über die Kodierung nicht genug und auch noch die falschen Daten vorliegen. Nur das Zeilenende wäre bestimmbar. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:19

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die in Umgebungsvariablen (wie `$LANG` [und deren Schwestern](https://www.thomas-krenn.com/de/wiki/Locales_unter_Ubuntu_konfigurieren)) eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen (`/[äüößÄÜÖ€]/` wären Kandidaten) die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. Es gibt gefühlt 2 Millionen Editoren - und nur deren Programmierer wissen, was die Dinger genau tun. Manche dokumentieren ja auch nichts. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:16

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die in Umgebungsvariablen (wie `$LANG` [und deren Schwestern](https://www.thomas-krenn.com/de/wiki/Locales_unter_Ubuntu_konfigurieren)) eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen (`/[äüößÄÜÖ€]/` wären Kandidaten) die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:14

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen (`/[äüößÄÜÖ€]/` wären Kandidaten) die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.

Zeichenkodierung in UFT-8 ?

bearbeitet von Regina Schaukrug - die echte 06.08.2018 11:11

> und guck mal welche Kodierung Dein Editor in der Datei erkennt. Wenn der Editor (oder ein von einer GUI im Hintergrund gesteuerter Editor) der `vim` ist und die Datei einen Kommentar enthält, wie ~~~ #vim:set fileencoding=utf-8 ~~~ oder wenn der Editor beim Öffnen nach einer [BOM](https://de.wikipedia.org/wiki/BOM) sucht (und findet), dann kann man von "Erkennen" sprechen. Alles andere ist "Spekulieren". (Freilich ist es auch schon eine Spekulation, ob die Kodierung korrekt vermerkt ist. Manche schreiben ja ALLES ab ohne über den Hintergrund nachzudenken.) Spekulation ist auch die Frage, ob es Editoren gibt, welche die eingestellte Sprache untersuchen und dann schauen, ob anhand bestimmter Zeichen die Kodierung halbwegs sicher ermittelbar ist oder ob es Editoren gibt, die nach etwas wie `<meta charset="utf-8">` greppen. > ~~~ > copy con a.txt > a > ^Z > ~~~ Hehe. Das kenne ich doch von MS-DOS. Das war ganz tief im Gedächnis-Stack. Ich werde jetzt keine VM mit freedos hochziehen um das zu machen. An anderer Stelle hast Du(?) geschrieben, Dein(?) Editor merke sich die Kodierung der Dateien. Dazu müsste der eine Liste führen. Das hat auch Nachteile. Ich hab hier genug Werkzeuge um Textdateien neu zu kodieren ohne einen Editor aufzumachen. Die benutze ich - wenns passt - auch ganz gerne.