Versions-Historie des Beitrags „einige Fragen zur Zeichenkodierung“

einige Fragen zur Zeichenkodierung

bearbeitet von

Gunnar Bittersmann 13.01.2017 12:54

@@Karl Heinz

> 1\. Wenn ich das richtig verstanden habe, dann sind zum einen die Zeichen in der *.txt Datei mit einem bestimmten Zeichensatz kodiert, zum anderen kann im Editor ein Zeichensatz eingestellt werden, mit welchem die Zeichen in der *.txt interpretiert werden. Ist das so korrekt erklärt?

Nein. Ein Zeichen**satz** bestimmt, welche Zeichen vorkommen können. Wie anno dazumals beim Lettersatz: Es kann nur das zu Papier gebracht werden, wozu es eine Bleitetter im Zeichensatz (wörtlich: ein Satz von Zeichen) gibt. Im Digitalen wird heute Unicode als Zeichensatz verwendet – darin sind alle Zeichen enthalten. Und Unicode wird ständig erweitert: es kommen Emojis hinzu oder für besondere Sprachen verwendete oder historische Schriften.

Wie die Zeichen im Coputer auf Bytes (Bytesequenzen) abgebildet werden, ist Sache der Zeichen**codierung**.

Im Zeitalter von 8-Bit-Codierungen (ISO 8859) konnte man die Bregriffe noch vermengen; heute gilt es, sie sorgfältig auseinanderzuhalten. Siehe [Zeichencodierung für Anfänger](https://www.w3.org/International/questions/qa-what-is-encoding) und [Zeichencodierungen: grundlegende Konzepte](https://www.w3.org/International/articles/definitions-characters/index), besonders Abschnitt [Zeichensätze, codierte Zeichensätze und Zeichencodierungen](https://www.w3.org/International/articles/definitions-characters/index#charsets).

> 2\. Demnach werden die Zeichen im Editor falsch dargestellt, wenn der im Editor gewählte Zeichensatz nicht zu dem Zeichensatz passt, mit welchem die Zeichen in der *.txt Datei kodiert wurden. Ist das so korrekt erklärt?

Wenn man „Zeichensatz“ durch „Zeichencodierung“ ersetzt, ja. Wenn eine Bytesequenz mit einer anderen Zeichencodierung decodiert wird als sie codiert wurde, dann kann da Murks rauskommen.

> 3\. Wie kann ich eigentlich den Zeichensatz einer *.txt Datei herausfinden? Irgendwo muss ja in den Metadaten der Datei festgelegt werden mit welchem Zeichensatz die Zeichen in der Datei kodiert wurden.

Text**dateien** haben keine Metadaten (in sich). Wenn die aber als **Ressourcen** auf die Reise gehen, können von außen Metadaten darüber gemacht werden; bei Übertragung mittels HTTP im Header: bspw. `Content-Type: text/plain; charset=UTF-8`.

In einer Unicode-Codierung (UTF-8, UTF-16 u.a.) codierte Dateien können aber ein [_byte order mark_{: @en} (BOM)](https://www.w3.org/International/questions/qa-byte-order-mark) am Anfang haben, das (so nebenbei auch) die Zeichencodierung angibt.

> Könnt ihr mir sagen wo bzw. wie ich den in der Datei verwendeten Zeichensatz herausfinden kann? Wenn ich diesen Zeichensatz im Vorfeld ermittlen könnte hätte ich auch die Möglichkeit den Zeichensatz im Editor richtig zu setzen, damit die Zeichen korrekt dargestellt werden.

„Zeichensatz“ → „Zeichencodierung“. Du kannst nur raten. Bei der Bytesequenz C3 A4 kannst du raten, dass nicht ISO 8859-1 vorliegt und das für die Zeichenfolge 'Ã¤' stehen soll, sondern dass das UTF-8 ist und für 'ä' steht.

> 4\. Warum erkennt der Editor den in der Datei verwendeten Zeichensatz eigentlich nicht automatisch?

Weil es nicht seine Aufgabe ist, zu raten. Es könnte ja tatsächlich 'Ã¤' gemeint sein.

LLAP 🖖
--
“When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)

einige Fragen zur Zeichenkodierung

bearbeitet von

Gunnar Bittersmann 13.01.2017 13:45

@@Karl Heinz

> 1\. Wenn ich das richtig verstanden habe, dann sind zum einen die Zeichen in der *.txt Datei mit einem bestimmten Zeichensatz kodiert, zum anderen kann im Editor ein Zeichensatz eingestellt werden, mit welchem die Zeichen in der *.txt interpretiert werden. Ist das so korrekt erklärt?

Nein. Ein Zeichen**satz** bestimmt, welche Zeichen vorkommen können. Wie anno dazumals beim Lettersatz: Es kann nur das zu Papier gebracht werden, wozu es eine Bleitetter im Zeichensatz (wörtlich: ein Satz von Zeichen) gibt. Im Digitalen wird heute Unicode als Zeichensatz verwendet – darin sind alle Zeichen enthalten. Und Unicode wird ständig erweitert: es kommen Emojis hinzu oder für besondere Sprachen verwendete oder historische Schriften.

Wie die Zeichen im Coputer auf Bytes (Bytesequenzen) abgebildet werden, ist Sache der Zeichen**codierung**.

Im Zeitalter von 8-Bit-Codierungen (ISO 8859) konnte man die Brgriffe noch vermengen,; heute gilt es, sie sorgfältig auseinanderzuhalten. Siehe [Zeichencodierung für Anfänger](https://www.w3.org/International/questions/qa-what-is-encoding) und [Zeichencodierungen: grundlegende Konzepte](https://www.w3.org/International/articles/definitions-characters/index), besonders Abschnitt [Zeichensätze, codierte Zeichensätze und Zeichencodierungen](https://www.w3.org/International/articles/definitions-characters/index#charsets).

> 2\. Demnach werden die Zeichen im Editor falsch dargestellt, wenn der im Editor gewählte Zeichensatz nicht zu dem Zeichensatz passt, mit welchem die Zeichen in der *.txt Datei kodiert wurden. Ist das so korrekt erklärt?

Wenn man „Zeichensatz“ durch „Zeichencodierung“ ersetzt, ja. Wenn eine Bytesequenz mit einer anderen Zeichencodierung decodiert wird als sie codiert wurde, dann kann da Murks rauskommen.

> 3\. Wie kann ich eigentlich den Zeichensatz einer *.txt Datei herausfinden? Irgendwo muss ja in den Metadaten der Datei festgelegt werden mit welchem Zeichensatz die Zeichen in der Datei kodiert wurden.

Text**dateien** haben keine Metadaten (in sich). Wenn die aber als **Ressourcen** auf die Reise gehen, können von außen Metadaten darüber gemacht werden; bei Übertragung mittels HTTP im Header: bspw. `Content-Type: text/plain; charset=UTF-8`.

In einer Unicode-Codierung (UTF-8, UTF-16 u.a.) codierte Dateien können aber ein [_byte order mark_{: @en} (BOM)](https://www.w3.org/International/questions/qa-byte-order-mark) am Anfang haben, das (so nebenbei auch) die Zeichencodierung angibt.

> Könnt ihr mir sagen wo bzw. wie ich den in der Datei verwendeten Zeichensatz herausfinden kann? Wenn ich diesen Zeichensatz im Vorfeld ermittlen könnte hätte ich auch die Möglichkeit den Zeichensatz im Editor richtig zu setzen, damit die Zeichen korrekt dargestellt werden.

„Zeichensatz“ → „Zeichencodierung“. Du kannst nur raten. Bei der Bytesequenz C3 A4 kannst du raten, dass nicht ISO 8859-1 vorliegt und das für die Zeichenfolge 'Ã¤' stehen soll, sondern dass das UTF-8 ist und für 'ä' steht.

> 4\. Warum erkennt der Editor den in der Datei verwendeten Zeichensatz eigentlich nicht automatisch?

Weil es nicht seine Aufgabe ist, zu raten. Es könnte ja tatsächlich 'Ã¤' gemeint sein.

LLAP 🖖
--
“When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)

einige Fragen zur Zeichenkodierung

bearbeitet von

Gunnar Bittersmann 13.01.2017 13:10

@@Karl Heinz

> 1\. Wenn ich das richtig verstanden habe, dann sind zum einen die Zeichen in der *.txt Datei mit einem bestimmten Zeichensatz kodiert, zum anderen kann im Editor ein Zeichensatz eingestellt werden, mit welchem die Zeichen in der *.txt interpretiert werden. Ist das so korrekt erklärt?

Nein. Ein Zeichen**satz** bestimmt, welche Zeichen vorkommen können. Wie anno dazumals beim Lettersatz: Es kann nur das zu Papier gebracht werden, wozu es eine Bleitetter im Zeichensatz (wörtlich: ein Satz von Zeichen) gibt. Im Digitalen wird heute Unicode als Zeichensatz verwendet – darin sind alle Zeichen enthalten. Und Unicode wird ständig erweitert: es kommen Emojis hinzu oder für besondere Sprachen verwendete oder historische Schriften.

Wie die Zeichen im Coputer auf Bytes (Bytesequenzen) abgebildet werden, ist Sache der Zeichen**codierung**.

Im Zeitalter von 8-Bit-Codierungen (ISO 8859) konnte man die Brgriffe noch vermengen, heute gilt es, sie sorgfältig auseinanderzuhalten. Siehe [Zeichencodierung für Anfänger](https://www.w3.org/International/questions/qa-what-is-encoding) und [Zeichencodierungen: grundlegende Konzepte](https://www.w3.org/International/articles/definitions-characters/index), besonders Abschnitt [Zeichensätze, codierte Zeichensätze und Zeichencodierungen](https://www.w3.org/International/articles/definitions-characters/index#charsets).

> 2\. Demnach werden die Zeichen im Editor falsch dargestellt, wenn der im Editor gewählte Zeichensatz nicht zu dem Zeichensatz passt, mit welchem die Zeichen in der *.txt Datei kodiert wurden. Ist das so korrekt erklärt?

Wenn man „Zeichensatz“ durch „Zeichencodierung“ ersetzt, ja. Wenn eine Bytesequenz mit einer anderen Zeichencodierung decodiert wird als sie codiert wurde, dann kann da Murks rauskommen.

> 3\. Wie kann ich eigentlich den Zeichensatz einer *.txt Datei herausfinden? Irgendwo muss ja in den Metadaten der Datei festgelegt werden mit welchem Zeichensatz die Zeichen in der Datei kodiert wurden.

Text**dateien** haben keine Metadaten (in sich). Wenn die aber als **Ressourcen** auf die Reise gehen, können von außen Metadaten darüber gemacht werden; bei Übertragung mittels HTTP im Header: bspw. `Content-Type: text/plain; charset=UTF-8`.

In einer Unicode-Codierung (UTF-8, UTF-16 u.a.) codierte Dateien können aber ein [_byte order mark_{: @en} (BOM)](https://www.w3.org/International/questions/qa-byte-order-mark) am Anfang haben, das (so nebenbei auch) die Zeichencodierung angibt.

> Könnt ihr mir sagen wo bzw. wie ich den in der Datei verwendeten Zeichensatz herausfinden kann? Wenn ich diesen Zeichensatz im Vorfeld ermittlen könnte hätte ich auch die Möglichkeit den Zeichensatz im Editor richtig zu setzen, damit die Zeichen korrekt dargestellt werden.

„Zeichensatz“ → „Zeichencodierung“. Du kannst nur raten. Bei der Bytesequenz C3 A4 kannst du raten, dass nicht ISO 8859-1 vorliegt und das für die Zeichenfolge 'Ã¤' stehen soll, sondern dass das UTF-8 ist und für 'ä' steht.

> 4\. Warum erkennt der Editor den in der Datei verwendeten Zeichensatz eigentlich nicht automatisch?

Weil es nicht seine Aufgabe ist, zu raten. Es könnte ja tatsächlich 'Ã¤' gemeint sein.

LLAP 🖖
--
“When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)

einige Fragen zur Zeichenkodierung

bearbeitet von

Gunnar Bittersmann 13.01.2017 13:00

@@Karl Heinz

> 1\. Wenn ich das richtig verstanden habe, dann sind zum einen die Zeichen in der *.txt Datei mit einem bestimmten Zeichensatz kodiert, zum anderen kann im Editor ein Zeichensatz eingestellt werden, mit welchem die Zeichen in der *.txt interpretiert werden. Ist das so korrekt erklärt?

Nein. Ein Zeichen**satz** bestimmt, welche Zeichen vorkommen können. Wie anno dazumals beim Lettersatz: Es kann nur das zu Papier gebracht werden, wozu es eine Bleitetter im Zeichensatz (wörtlich: ein Satz von Zeichen) gibt. Im Digitalen wird heute Unicode als Zeichensatz verwendet – darin sind alle Zeichen enthalten. Und Unicode wird ständig erweitert: es kommen Emojis hinzu oder für besondere Sprachen verwendete oder historische Schriften.

Wie die Zeichen im Coputer auf Bytes (Bytesequenzen) abgebildet werden, ist Sache der Zeichen**codierung**.

Im Zeitalter von 8-Bit-Codierungen (ISO 8859) konnte man die Brgriffe noch vermengen, heute gilt es, sie sorgfältig auseinanderzuhalten. Siehe [Zeichencodierung für Anfänger](https://www.w3.org/International/questions/qa-what-is-encoding) und [Zeichencodierungen: grundlegende Konzepte](https://www.w3.org/International/articles/definitions-characters/index), besonders Abschnitt [Zeichensätze, codierte Zeichensätze und Zeichencodierungen](https://www.w3.org/International/articles/definitions-characters/index#charsets).

> 2\. Demnach werden die Zeichen im Editor falsch dargestellt, wenn der im Editor gewählte Zeichensatz nicht zu dem Zeichensatz passt, mit welchem die Zeichen in der *.txt Datei kodiert wurden. Ist das so korrekt erklärt?

Wenn man „Zeichensatz“ durch „Zeichencodierung“ ersetzt, ja. Wenn eine Bytesequenz mit einer anderen Zeichencodierung decodiert wird als sie codiert wurde, dann kann da Murks rauskommen.

> 3\. Wie kann ich eigentlich den Zeichensatz einer *.txt Datei herausfinden? Irgendwo muss ja in den Metadaten der Datei festgelegt werden mit welchem Zeichensatz die Zeichen in der Datei kodiert wurden.

Text**dateien** haben keine Metadaten (in sich). Wenn die aber als **Ressourcen** auf die Reise gehen, können von außen Metadaten darüber gemacht werden; bei Übertragung mittels HTTP im Header: bspw. `Content-Type: text/plain; charset=UTF-8`.

In einer Unicode-Codierung (UTF-8, UTF-16 u.a.) codierte Dateien können aber ein [_byte order mark_{: @en} (BOM)](https://www.w3.org/International/questions/qa-byte-order-mark) am Anfang haben, das (so nebenbei auch) die Zeichencodierung angibt.

> Könnt ihr mir sagen wo bzw. wie ich den in der Datei verwendeten Zeichensatz herausfinden kann? Wenn ich diesen Zeichensatz im Vorfeld ermittlen könnte hätte ich auch die Möglichkeit den Zeichensatz im Editor richtig zu setzen, damit die Zeichen korrekt dargestellt werden.

„Zeichensatz“ → „Zeichencodierung“. Du kannst nur raten. Bei der Bytesequenz C3 A4 kannst du raten, dass nicht ISO 8859-1 vorliegt und das für die Zeichenfolge 'Ã¤' stehen soll, sondern dass das UTF-8 und für 'ä' steht.

> 4\. Warum erkennt der Editor den in der Datei verwendeten Zeichensatz eigentlich nicht automatisch?

Weil es nicht seine Aufgabe ist, zu raten. Es könnte ja tatsächlich 'Ã¤' gemeint sein.

LLAP 🖖
--
“When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)

einige Fragen zur Zeichenkodierung

bearbeitet von

Gunnar Bittersmann 13.01.2017 12:59

@@Karl Heinz > 1\. Wenn ich das richtig verstanden habe, dann sind zum einen die Zeichen in der *.txt Datei mit einem bestimmten Zeichensatz kodiert, zum anderen kann im Editor ein Zeichensatz eingestellt werden, mit welchem die Zeichen in der *.txt interpretiert werden. Ist das so korrekt erklärt? Nein. Ein Zeichen**satz** bestimmt, welche Zeichen vorkommen können. Wie anno dazumals beim Lettersatz: Es kann nur das zu Papier gebracht werden, wozu es eine Bleitetter im Zeichensatz gibt. Im Digitalen wird heute Unicode als Zeichensatz verwendet – darin sind alle Zeichen enthalten. Und Unicode wird ständig erweitert: es kommen Emojis hinzu oder für besondere Sprachen verwendete oder historische Schriften. Wie die Zeichen im Coputer auf Bytes (Bytesequenzen) abgebildet werden, ist Sache der Zeichen**codierung**. Im Zeitalter von 8-Bit-Codierungen (ISO 8859) konnte man die Brgriffe noch vermengen, heute gilt es, sie sorgfältig auseinanderzuhalten. Siehe [Zeichencodierung für Anfänger](https://www.w3.org/International/questions/qa-what-is-encoding) und [Zeichencodierungen: grundlegende Konzepte](https://www.w3.org/International/articles/definitions-characters/index), besonders Abschnitt [Zeichensätze, codierte Zeichensätze und Zeichencodierungen](https://www.w3.org/International/articles/definitions-characters/index#charsets). > 2\. Demnach werden die Zeichen im Editor falsch dargestellt, wenn der im Editor gewählte Zeichensatz nicht zu dem Zeichensatz passt, mit welchem die Zeichen in der *.txt Datei kodiert wurden. Ist das so korrekt erklärt? Wenn man „Zeichensatz“ durch „Zeichencodierung“ ersetzt, ja. Wenn eine Bytesequenz mit einer anderen Zeichencodierung decodiert wird als sie codiert wurde, dann kann da Murks rauskommen. > 3\. Wie kann ich eigentlich den Zeichensatz einer *.txt Datei herausfinden? Irgendwo muss ja in den Metadaten der Datei festgelegt werden mit welchem Zeichensatz die Zeichen in der Datei kodiert wurden. Text**dateien** haben keine Metadaten (in sich). Wenn die aber als **Ressourcen** auf die Reise gehen, können von außen Metadaten darüber gemacht werden; bei Übertragung mittels HTTP im Header: bspw. `Content-Type: text/plain; charset=UTF-8`. In einer Unicode-Codierung (UTF-8, UTF-16 u.a.) codierte Dateien können aber ein [_byte order mark_{: @en} (BOM)](https://www.w3.org/International/questions/qa-byte-order-mark) am Anfang haben, das die Zeichencodierung angibt. > Könnt ihr mir sagen wo bzw. wie ich den in der Datei verwendeten Zeichensatz herausfinden kann? Wenn ich diesen Zeichensatz im Vorfeld ermittlen könnte hätte ich auch die Möglichkeit den Zeichensatz im Editor richtig zu setzen, damit die Zeichen korrekt dargestellt werden. „Zeichensatz“ → „Zeichencodierung“. Du kannst nur raten. Bei der Bytesequenz C3 A4 kannst du raten, dass nicht ISO 8859-1 vorliegt und das für die Zeichenfolge 'Ã¤' stehen soll, sondern dass das UTF-8 und für 'ä' steht. > 4\. Warum erkennt der Editor den in der Datei verwendeten Zeichensatz eigentlich nicht automatisch? Weil es nicht seine Aufgabe ist, zu raten. Es könnte ja tatsächlich 'Ã¤' gemeint sein. LLAP 🖖 -- “When UX doesn’t consider *all* users, shouldn’t it be known as ‘*Some* User Experience’ or... SUX? #a11y” —[Billy Gregory](https://twitter.com/thebillygregory/status/552466012713783297)