Kai: Zeichenkodierung: ISO ... vs. Unicode

Hallo,

Irgendwie raffe ich es nicht:
1. Muss ich einen Zeichenkode in meinen HTML-Dateien angeben?
2. Was ist sinnvoller: Unicode oder z. B. ISO 8859?
3. Habe ich überhaupt einen Einfluss auf die Zeichenkodierung, wenn ich Webspeicherplatz z. B. bei Strato & Co. angemietet habe?
4. Werden nicht eh Voreinstellungen verwendet?

Kai

  1. Hallo Kai,

    1. Muss ich einen Zeichenkode in meinen HTML-Dateien angeben?

    Es empfiehlt sich.

    1. Was ist sinnvoller: Unicode oder z. B. ISO 8859?

    Das hängt davon ab, welche Zeichen Du verwenden willst. Wenn Du nur das lateinische Alphabet plus Umlaute und Eszett verwendest, genügen ISO 8859-1 (alias Latin 1) oder ISO 8859-15 (alias Latin 9), das nichts anderes als ein Latin 1 plus Eurozeichen ist. Wenn Du kyrillische Zeichen verwenden willst, brauchst Du den entsprechenden Zeichensatz ISO 8859-irgendwas.

    All diese Zeichensätze kennen insgesamt nur 256 Zeichen, einige davon nicht mal druckbar.

    Im Unicode Standard dagegen sind so ziemlich die meisten bekannten und gebräuchlichen Zeichen enthalten. Zusammen. Das heißt, man kann lateinische und kyrillische und asiatische (CJK) und sonstige Zeichen mischen. Manche sehen das als Vorteil. Hier im SELF-Forum wird z.B. die Unicode-Kodierung UTF-8 verwendet, hauptsächlich weil Cheffe chinesische Begrüßungen verwenden will. Das hat für mich den schönen Nebeneffekt, dass ich „korrekte deutsche Anführungszeichen“ verwenden kann, die in dem Zeichensatz ISO 8859-1 nicht enthalten sind.

    Wenn Du also Zeichen verwenden willst, die nicht in einem der ISO 8859-X Zeichensätze enthalten sind oder Zeichen aus verschiedenen Zeichensätzen mischen willst, empfiehlt sich Unicode in der Kodierung UTF-8.

    1. Habe ich überhaupt einen Einfluss auf die Zeichenkodierung, wenn ich Webspeicherplatz z. B. bei Strato & Co. angemietet habe?

    Im Prinzip ja. Ich glaube, auch bei Strato geht das. Dazu solltest Du eine .htaccess-Datei anlegen, in dem Du dem Webserver mitteilst, mit welcher Kodierung er die und die Dateien über HTTP senden sollst. Das machst Du mit der AddCharset-Direktive.

    1. Werden nicht eh Voreinstellungen verwendet?

    Wenn bei HTTP keine Kodierung angegeben wurde, soll laut Standard die Kodierung Latin 1 angenommen werden. Keine Ahnung, ob da diverse Browser Mist bauen.

    Tim

      1. Was ist sinnvoller: Unicode oder z. B. ISO 8859?

      Unicode ist ein Zeichensatz. Du meinst bestimmt UTF-8.

      oder ISO 8859-15 (alias Latin 9), das nichts anderes als ein Latin 1 plus Eurozeichen ist.

      Das ist falsch. ISO-8859-15 definiert acht Zeichen anders als ISO-8859-1 (0xA4, 0xA6, 0xA8, 0xB4, 0xB8, 0xBC, 0xBD, 0xBE).

      1. Hallo,

        Unicode ist ein Zeichensatz. Du meinst bestimmt UTF-8.

        (Könnt ihr solche Anmerkungen nicht beim OP loswerden?)

        Das ist falsch. ISO-8859-15 definiert acht Zeichen anders als ISO-8859-1

        Ja. Hältst Du irgendeines dieser Zeichen für Otto Normalnutzer hier für relevant?

        Tim

        1. Das ist falsch. ISO-8859-15 definiert acht Zeichen anders als ISO-8859-1

          Ja. Hältst Du irgendeines dieser Zeichen für Otto Normalnutzer hier für relevant?

          Mindestens ¼, ½ und ¾. Abgesehen davon ging es mir um den sachlichen Fehler. -15 ist nicht -1 plus €, es wurden Zeichen ausgetauscht. -1 ist keine Teilmenge von -15.

          1. Hallo,

            -1 ist keine Teilmenge von -15.

            Stimmt natürlich. Wenn Du es aus was für Gründen auch immer für nötig hältst, das anzumerken, hast Du meinen Segen.

            Tim

            1. Hi Tim.

              -1 ist keine Teilmenge von -15.

              Stimmt natürlich. Wenn Du es aus was für Gründen auch immer für nötig hältst, das anzumerken, hast Du meinen Segen.

              Es ging wohl eher um die _korrekte_ Darstellung des Sachverhalts. Ich fand die Anmerkung nützlich (auch wenn deine Darstellung leichter zu merken wäre ;-)

              Schönen Sonntag noch!
              O'Brien

              --
              Frank und Buster: "Heya, wir sind hier um zu helfen!"
    1. 你好 Tim,

      1. Was ist sinnvoller: Unicode oder z. B. ISO 8859?

      Unicode ist keine Kodierung, Unicode wird in HTML-Dateien sowieso
      verwendet ;-)

      Hier im SELF-Forum wird z.B. die Unicode-Kodierung UTF-8 verwendet,
      hauptsächlich weil Cheffe chinesische Begrüßungen verwenden will.

      Nein, das könnte ich auch, wenn das Forum als Latin1 ausgeliefert
      würde -- meine Charset-Routinen können alle Zeichen, die nicht in einer
      Kodierung enthalten sind, umwandeln in benannte bzw. wenn kein benanntes
      existiert in nummerische Entities umwandeln. Der Grund, warum hier auf
      UTF-8 umgestellt wurde sind diverse Browserbugs. Bestes Beispiel bildet
      hier Mozilla, der Windows-1252 sendet, wenn ein als ISO-8859-1 kodiertes
      Dokument ein Formular enthält, in dem ein €-Zeichen eingegeben wurde.
      Und bei anderen Zeichen, die nicht in der Kodierung enthalten sind, sendet
      er nummerische Entities ohne sie von echten Text abzusetzen. Bescheuertes
      Verhalten und auch schon mehrfach im Bugtracker angemäkelt aber nie
      verbessert. Dazu kommt, dass er das “accept-charset”-Attribut schlichtweg
      ignoriert.

      Wenn Du also Zeichen verwenden willst, die nicht in einem der ISO 8859-X
      Zeichensätze enthalten sind oder Zeichen aus verschiedenen Zeichensätzen
      mischen willst, empfiehlt sich Unicode in der Kodierung UTF-8.

      Warum UTF-8 sich empfiehlt, habe ich oben ja angemerkt. Die Zeichen mischen
      könnte man auch problemlos mit nummerischen oder benannten Entities.

      再见,
      克里斯蒂安

      --
      Wenn gewöhnliche Menschen Wissen erlangen, sind sie weise. Wenn Weise Einsicht erlangen, sind sie gewöhlnliche Menschen.
      http://wwwtech.de/
      1. Hallo,

        Die Zeichen mischen könnte man auch problemlos mit nummerischen oder benannten Entities.

        Wie schon öfters hier und da angemerkt, halte ich das nicht für sonderlich benutzerfreundlich gegenüber dem Autor von Seiten.

        Tim

        1. 你好 Tim,

          Die Zeichen mischen könnte man auch problemlos mit nummerischen oder
          benannten Entities.

          Wie schon öfters hier und da angemerkt, halte ich das nicht für sonderlich
          benutzerfreundlich gegenüber dem Autor von Seiten.

          Bei einem vernünftigen HTML-Editor sind die Entities transparent ;-) Es macht
          für ihn also keinen Unterschied, ob er Entities oder UTF-8 benutzt.

          再见,
          克里斯蒂安

          --
          Es gibt keinen Ort, wo der Geist zu finden waere. Er ist wie die Fussspuren der Voegel am Himmel.
          http://wwwtech.de/
          1. Hallo Christian,

            Bei einem vernünftigen HTML-Editor sind die Entities transparent ;-)

            In einer vernünftigen Editor möchte ich die Entities als solche dargestellt haben - insbesondere wenn ich Entities nicht nur für Zeichen definiert habe. ;)

            Tim

            1. 你好 Tim,

              Bei einem vernünftigen HTML-Editor sind die Entities transparent ;-)

              In einer vernünftigen Editor möchte ich die Entities als solche dargestellt
              haben

              Dann musst du aber auch damit leben, dass es “nicht sonderlich
              benutzerfreundlich” ist ;-))

              insbesondere wenn ich Entities nicht nur für Zeichen definiert habe. ;)

              Hehe, wir reden hier von HTML -- wie sich ein XML-Editor verhalten sollte,
              ist eine ganz andere Frage *g*

              再见,
              克里斯蒂安

              --
              Q: God, root, what's the difference?
              A: God is merciful.
              http://wwwtech.de/
              1. Hallo,

                Dann musst du aber auch damit leben, dass es “nicht sonderlich benutzerfreundlich” ist ;-))

                Nö, ich nutze einfach UTF-8. ;)

                Tim

                1. 你好 Tim,

                  Dann musst du aber auch damit leben, dass es “nicht sonderlich
                  benutzerfreundlich” ist ;-))

                  Nö, ich nutze einfach UTF-8. ;)

                  Das ist geschummelt *g*

                  再见,
                  克里斯蒂安

                  --
                  Wenn auf Erden alle das Schoene als schoen erkennen, so ist dadurch schon das Haessliche bestimmt.
                  http://wwwtech.de/
                  1. Hallo,

                    Das ist geschummelt *g*

                    Gute Editoren erlauben einem zu schummeln. ;)

                    Die Translate Funktion in BBEdit

                    Tim

                    1. 你好 Tim,

                      Das ist geschummelt *g*

                      Gute Editoren erlauben einem zu schummeln. ;)

                      Die Translate Funktion in BBEdit

                      Verstehe jetzt nicht so recht, was du mir damit sagen willst -- der Editor
                      scheint genau das zu können, was ich fordere: Entities transparent behandeln.

                      再见,
                      克里斯蒂安

                      --
                      Treffen sich zwei Geraden. Sagt die eine: "Beim nächsten Mal gibst du einen aus."
                      http://wwwtech.de/
                      1. Hallo Christian,

                        Verstehe jetzt nicht so recht, was du mir damit sagen willst

                        Der Vollständigkeit halber: Diese Funktion in BBedit wandelt auf Wunsche alle Zeichen, die nicht im englischen Alphabet enthalten sind, in benanntes Entities um, Ausnahme sind die Tag Delimiter und sonstiges Programmierzeugs. Sehr praktisch, wenn man vernünftigen Text in das SELF-Layout überführen will.

                        Tim

      2. Hi,

        1. Was ist sinnvoller: Unicode oder z. B. ISO 8859?

        Unicode ist keine Kodierung, Unicode wird in HTML-Dateien sowieso
        verwendet ;-)

        Unicode ist eine Kodierung.

        Hier im SELF-Forum wird z.B. die Unicode-Kodierung UTF-8 verwendet,
        hauptsächlich weil Cheffe chinesische Begrüßungen verwenden will.

        Nein, es ist einfach sinnvoll sich von ISO-8859-1 und so abzuwenden.

        Nein, das könnte ich auch, wenn das Forum als Latin1 ausgeliefert
        würde -- meine Charset-Routinen können alle Zeichen, die nicht in einer
        Kodierung enthalten sind, umwandeln in benannte bzw. wenn kein benanntes
        existiert in nummerische Entities umwandeln.

        Was soll das denn heissen?

        Der Grund, warum hier auf
        UTF-8 umgestellt wurde sind diverse Browserbugs.

        Understatement?

        [frickel]

        Also, schoen weier frickeln...   ;-)

        Guss,
        Ludger

        1. Ludger,

          Unicode ist eine Kodierung.

          Unicode ist keine Kodierung. Unicode enthält wohl mehrere Kodierungen, ja. Aber eben mehrere.

          Nein, es ist einfach sinnvoll sich von ISO-8859-1 und so abzuwenden.

          Weswegen?

          Was soll das denn heissen?

          Äh. Was verstehst Du denn daran nicht?

          Also, schoen weier frickeln...   ;-)

          Immerhin kann er was. ;)

          Tim

          1. Hi,

            Unicode ist eine Kodierung.

            Unicode ist keine Kodierung. Unicode enthält wohl mehrere Kodierungen, ja. Aber eben mehrere.

            Dir ist klar, dass Du mit dieser Aussage internationale Standards ausser Acht laestt, soz. zum nicht diskussionswuerdigen Partner und zur betreuungswuerdigen Hilfskraft wirst?

            Nein, es ist einfach sinnvoll sich von ISO-8859-1 und so abzuwenden.

            Weswegen?

            Warum eine nur lokal verstaendliche Sprache sprechen, wenn es eine weltweit zu verstehende gibt?

            Was soll das denn heissen?

            Äh. Was verstehst Du denn daran nicht?

            Den Sinn des leider ausgeblendeten ungluecklichen Staetements.

            Also, schoen weier frickeln...   ;-)

            Immerhin kann er was. ;)

            Frickeln kann jeder, aber es ist nícht nur wichtig, dass es "funzt", sondern auch dass das bereitgestellte System skalierbar, wartungsfreundlich und weiterentwicklungsfaehig ist und bleibt.

            Das predige ich ja schon seit Jahren, vielleicht ist CK ja bald soweit mich zu verstehen.

            Gruss,
            Ludger

            1. Ludger,

              Dir ist klar, dass Du mit dieser Aussage internationale Standards ausser Acht laestt,

              Inwiefern?

              Oder anders: Erklär's uns doch mal bitte konkret. Wie kodierst Du das Zeichen 'ä' in Unicode? Eine Angabe in Bytes in hexadezimaler Schreibweise genügen.

              Warum eine nur lokal verstaendliche Sprache sprechen, wenn es eine weltweit zu verstehende gibt?

              Kommt immer auf die Zielgruppe an, würde ich sagen.

              Den Sinn des leider ausgeblendeten ungluecklichen Staetements.

              Ja. Ich frage mich eben, was es daran nicht zu verstehen gibt

              sondern auch dass das bereitgestellte System skalierbar, wartungsfreundlich und weiterentwicklungsfaehig ist und bleibt.

              Was empfindest Du denn am CForum als nicht skalierbar, als nicht wartungsfreundlich und als nicht weiterentwicklungsfähig? Konkrete Beispiele bitte, daran lässt sich immer besser erklären, als an abstrakten Konzepten.

              Tim

              1. Hi,

                Dir ist klar, dass Du mit dieser Aussage internationale Standards ausser Acht laestt,

                Inwiefern?

                war Gesuelze. Aber dennoch. Zu behaupten, dass Unicode keine Kodierung ist, laesst mich dch ein wenig blass werden.   ;-)

                Oder anders: Erklär's uns doch mal bitte konkret. Wie kodierst Du das Zeichen 'ä' in Unicode? Eine Angabe in Bytes in hexadezimaler Schreibweise genügen.

                s.o.

                Warum eine nur lokal verstaendliche Sprache sprechen, wenn es eine weltweit zu verstehende gibt?

                Kommt immer auf die Zielgruppe an, würde ich sagen.

                Die Zielgruppe ist gross mittlerweile, oder? (Selbst ich passe meine Aussagen soz. an internationale Standards an.)

                Den Sinn des leider ausgeblendeten ungluecklichen Staetements.

                Ja. Ich frage mich eben, was es daran nicht zu verstehen gibt

                Zitiere es einfach mal und "feel the difference"!   ;-)

                sondern auch dass das bereitgestellte System skalierbar, wartungsfreundlich und weiterentwicklungsfaehig ist und bleibt.

                Was empfindest Du denn am CForum als nicht skalierbar, als nicht wartungsfreundlich und als nicht weiterentwicklungsfähig? Konkrete Beispiele bitte, daran lässt sich immer besser erklären, als an abstrakten Konzepten.

                Erst ist das Wort. Christian hat ja leider hier bereits mehrfach die Grenzen seiner Belastbarkeit und Weiterentwicklungsfaehigkeit angedeutet. Ich rufe ihm hiermit zu: "Sei doof! Kuemmere Dich um das Datendesign und die Systeme und ansonsten halt die Fresse!"   ;-)

                Gruss,
                Ludger

                1. Lude,

                  Oder anders: Erklär's uns doch mal bitte konkret. Wie kodierst Du das Zeichen 'ä' in Unicode? Eine Angabe in Bytes in hexadezimaler Schreibweise genügen.

                  s.o.

                  Nix da, Butter bei die Fische. Gib mal Bytes an. Oder kannst Du das nicht?

                  Zitiere es einfach mal und "feel the difference"!   ;-)

                  Wozu, ich, Du, jeder andere kann es nachlesen. Ich frage mich immer noch, was daran nicht zu verstehen ist. Kannst Du das nicht konkretisieren?

                  Erst ist das Wort.

                  Das war das Wort. Ich warte immer noch auf konkrete Beispiele.

                  Tim

          2. Hi,

            Unicode ist eine Kodierung.

            Unicode ist keine Kodierung. Unicode enthält wohl mehrere Kodierungen, ja. Aber eben mehrere.

            Unicode ist ein Code und ein Code ist eine Kodierung. (Du spielst wohl auf UTF an?)

            Nein, es ist einfach sinnvoll sich von ISO-8859-1 und so abzuwenden.

            Weswegen?

            Weil Unicode so zu sagen vollstaendig ist und darum gegenueber bspw. ISO-8859 zu bervorzugen. Und zwar auch dann wenn man anfaenglich meint mit dem westeuropaeischen ISO-Zeichensatz auskommen zu koennen.

            Was soll das denn heissen?

            Äh. Was verstehst Du denn daran nicht?

            Ein besserer Weg statt dieser Gegenfrage waere es gewesen das was Du geschrieben hast und unverstanden blieb einfach noch mal neu zu schreiben, so zu sagen ein wenig herunterzubrechen.

            Also, schoen weier frickeln...   ;-)

            Immerhin kann er was. ;)

            Wer?

            Gruss,
            Ludger

            1. Lass es lieber. Du machst dich nur immer lächerlicher.

              1. Hallöle,

                Lass es lieber. Du machst dich nur immer lächerlicher.

                Ich bezweifle, daß das noch geht.

                cu,
                Robert

              2. Hi,

                Lass es lieber. Du machst dich nur immer lächerlicher.

                ohne auf Dein Postingverhalten naeher eingehen zu wollen (Was ist wohl von jemandem zu halten der anonym postet und sich auch ansonsten nicht an die ueblichen Konventionen haelt, zudem inhaltlich schwach und sozial unbedarft daherkommt?) und den anderen Spassvogel ignorierend nur die kleine Frage:

                Was war in dem von Dir beantworteten Posting fuer Dich laecherlich?

                Gruss,
                Ludger

                1. Was war in dem von Dir beantworteten Posting fuer Dich laecherlich?

                  Deine im Brustton der Überzeugung geäusserten und offensichtlich falschen Thesen, deren Irrtümer man mit drei Minuten lesen aufdecken könnte, was du aber offensichtlich, obwohl du seit gestern abend Zeit hattest, nicht tust sondern dich lieber immer mehr um Kopf und Kragen redest und dabei nicht im mindesten bereit bist, dich belehren zu lassen. Ich amüsiere mich dabei königlich. Mach weiter.

                  1. Hi,

                    Was war in dem von Dir beantworteten Posting fuer Dich laecherlich?

                    Deine im Brustton der Überzeugung geäusserten und offensichtlich falschen Thesen,

                    erstens ist dieser "Brustton der Ueberzeugung" nicht wirklich vorhanden und zweitens weiss ich immer noch nicht, was fuer Dich fachlich nicht OK war. Du bist also weiterhin eingeladen zu ERLAEUTERN! Andernfalls muss ich von einem Sinnlosposting Deinerseits ausgehen. Du hast ja ohnehin den Hang zu Sinnlospostings.

                    deren Irrtümer man mit drei Minuten lesen aufdecken könnte, was du aber offensichtlich, obwohl du seit gestern abend Zeit hattest, nicht tust sondern dich lieber immer mehr um Kopf und Kragen redest und dabei nicht im mindesten bereit bist, dich belehren zu lassen. Ich amüsiere mich dabei königlich. Mach weiter.

                    Lustig sind meine Beitraege oft.   ;-)

                    Gruss,
                    Ludger

                    1. Was war in dem von Dir beantworteten Posting fuer Dich laecherlich?

                      Deine im Brustton der Überzeugung geäusserten und offensichtlich falschen Thesen,

                      erstens ist dieser "Brustton der Ueberzeugung" nicht wirklich vorhanden

                      Deshalb widersprichst du Tim ja auch weiterhin ohne irgendwelche Argumente.

                      und zweitens weiss ich immer noch nicht, was fuer Dich fachlich nicht OK war.

                      character set

                      A group of unique symbols used for display and printing.

                      What is Unicode?

                      Unicode provides a unique number for every character,
                      no matter what the platform,
                      no matter what the program,
                      no matter what the language.

                      Folgerung: Unicode ist keine Kodierung, sondern ein so-called character set.

                      5.1 The Document Character Set

                      To promote interoperability, SGML requires that each application (including HTML) specify its document character set. A document character set consists of:
                      A Repertoire: A set of abstract characters,, such as the Latin letter "A", the Cyrillic letter "I", the Chinese character meaning "water", etc.
                      Code positions: A set of integer references to characters in the repertoire.

                      Each SGML document (including each HTML document) is a sequence of characters from the repertoire. Computer systems identify each character by its code position; for example, in the ASCII character set, code positions 65, 66, and 67 refer to the characters 'A', 'B', and 'C', respectively.

                      The ASCII character set is not sufficient for a global information system such as the Web, so HTML uses the much more complete character set called the Universal Character Set (UCS), defined in [ISO10646]. This standard defines a repertoire of thousands of characters used by communities all over the world.

                      The character set defined in [ISO10646] is character-by-character equivalent to Unicode ([UNICODE]). Both of these standards are updated from time to time with new characters, and the amendments should be consulted at the respective Web sites. In the current specification, "[ISO10646]" is used to refer to the document character set while "[UNICODE]" is reserved for references to the Unicode bidirectional text algorithm.

                      The document character set, however, does not suffice to allow user agents to correctly interpret HTML documents as they are typically exchanged -- encoded as a sequence of bytes in a file or during a network transmission. User agents must also know the specific character encoding that was used to transform the document character stream into a byte stream.

                      Wir haben also gelernt: HTML nutzt Unicode als Character set, unabhängig vom character encoding.

                      5.2 Character encodings

                      What this specification calls a character encoding is known by different names in other specifications (which may cause some confusion). However, the concept is largely the same across the Internet. Also, protocol headers, attributes, and parameters referring to character encodings share the same name -- "charset" -- and use the same values from the [IANA] registry (see [CHARSETS] for a complete list).

                      The "charset" parameter identifies a character encoding, which is a method of converting a sequence of bytes into a sequence of characters. This conversion fits naturally with the scheme of Web activity: servers send HTML documents to user agents as a stream of bytes; user agents interpret them as a sequence of characters. The conversion method can range from simple one-to-one correspondence to complex switching schemes or algorithms.

                      A simple one-byte-per-character encoding technique is not sufficient for text strings over a character repertoire as large as [ISO10646]. There are several different encodings of parts of [ISO10646] in addition to encodings of the entire character set (such as UCS-4).

                      Wir haben also gelernt: wir müssen das character encoding mit Hilfe des charset-Parameters angeben.

                      5.2.1 Choosing an encoding

                      Authoring tools (e.g., text editors) may encode HTML documents in the character encoding of their choice, and the choice largely depends on the conventions used by the system software. These tools may employ any convenient encoding that covers most of the characters contained in the document, provided the encoding is correctly labeled. Occasional characters that fall outside this encoding may still be represented by character references. These always refer to the document character set, not the character encoding.

                      Servers and proxies may change a character encoding (called transcoding) on the fly to meet the requests of user agents (see section 14.2 of [RFC2616], the "Accept-Charset" HTTP request header). Servers and proxies do not have to serve a document in a character encoding that covers the entire document character set.

                      Commonly used character encodings on the Web include ISO-8859-1 (also referred to as "Latin-1"; usable for most Western European languages), ISO-8859-5 (which supports Cyrillic), SHIFT_JIS (a Japanese encoding), EUC-JP (another Japanese encoding), and UTF-8 (an encoding of ISO 10646 using a different number of bytes for different characters). Names for character encodings are case-insensitive, so that for example "SHIFT_JIS", "Shift_JIS", and "shift_jis" are equivalent.

                      This specification does not mandate which character encodings a user agent must support.

                      Conforming user agents must correctly map to ISO 10646 all characters in any character encodings that they recognize (or they must behave as if they did).

                      Wir haben also gelernt: wir dürfen einen beliebigen character set benutzen. Möchten wir ein Zeichen ausserhalb des _character sets_ nutzen, können wir nummerische Entities nutzen, die sich _immer_ auf den _character set_ des Dokumentes beziehen, dass ja, wie wir inzwischen wissen, Unicode ist. Es bezieht sich _nicht_ auf das character encoding. Deshalb ist es Christian möglich, im Forum beliebige Zeichen über deren Unicode-Nummer einzubinden.

                      Fazit: Du hast mit deiner Behauptung, Unicode sei ein character encoding, also eine Kodierung, falsch gelegen. Der Unicode-Standard enthält zwar einige Character encodings (Kodierungen), aber Unicode ist ein Character set, also keine Kodierung. Nachlesen kannst du es in den entsprechenden Standards.

                      Du hast ja ohnehin den Hang zu Sinnlospostings.

                      Danke. Gleichfalls.

                      Lustig sind meine Beitraege oft.   ;-)

                      Nicht so, wie du es gern hättest.

                      1. Hi,

                        danke fuer den substantiellen Beitrag. Nun verstehe ich, was Ihr denkt. Ich fasse fuer die Zwecke allgemeiner Meinungsbildung mal kurz meine Argumentation zusammen:

                        1.) Unicode ist ein Code (ein Codex, eine Zuordnungstabelle)
                        2.) Ein Code ist eine Kodierung
                        3.) Unicode ist eine Kodierung

                        Ich werde jetzt nicht weiter auf Deine Argumentationsfuehrung eingehen, ausser, dass Du meinst Kodierung ist mit character encoding treffend uebersetzt, das ist aber falsch.

                        Ausserdem rate ich zudem dringend an sich nie an Woertern aufzugeilen. (Da gehe ich sogar mit _DEM_MEISTER_ konform)

                        Ich hatte hier leider schon wenig sinnvolle Diskussionen wie z.B. "Was ist ein Template?" (mit CK   :-(   ) oder auch "Welche Bedeutungen haben die Woerter 'Ignoranz' und 'ignorieren'?". Das bringt nichts und ich fuehre diese Diskussionen nur um die "Forumsjugend" (negativ ausgedrueckt: die weniger erfahrenen Kreafte, und zwar altersunabhaengig) mal ein bisschen zum (eigenstaendigen) Denken zu bringen.

                        Was ich bei Dir unterstelle ist eine negative Grundhaltung bzgl. meiner Beitraege und den Drang eine Gegenposition aufzubauen. Zudem ist Dir an Veraechtlichmachung gelegen. Alles Mist natuerlich, also mach Dich frei von dem Gedanken, dass Menschen und Meinungen zusammengehoeren. (Auch wenn sie das tun, aber das ist Lektion 2.  ;-)

                        Gruss,
                        Ludger

                        1. Ich wusste, dass du nicht bereit bist, dazuzulernen. Deshalb habe ich mir auch so wenig Mühe mit meinem Posting gemacht.

                          1.) Unicode ist ein Code (ein Codex, eine Zuordnungstabelle)
                          2.) Ein Code ist eine Kodierung
                          3.) Unicode ist eine Kodierung

                          Falsch. Hatten wir aber schon... Wenn du für deine Meinung keine Argumente hast, solltest du nicht auf ihr beharren, sondern dich gelegentlich auch mal eines Irrtums belehren lassen.

                          Ich werde jetzt nicht weiter auf Deine Argumentationsfuehrung eingehen,

                          Ja, das dachte ich mir. Du beharrst auf deinen Behauptungen ohne einen Beleg zu haben.

                          ausser, dass Du meinst Kodierung ist mit character encoding treffend uebersetzt, das ist aber falsch.

                          Die Übersetzung ist die offizielle, mit anderen Worten, wenn du es anders definierst tust du es entgegen dem Rest der Welt. Kannst du natürlich tun, musst dich dann aber nicht wundern, wenn du von anderen Leuten als Trottel abgestempelt wirst.

                          1. Hi,

                            Ich wusste, dass du nicht bereit bist, dazuzulernen. Deshalb habe ich mir auch so wenig Mühe mit meinem Posting gemacht.

                            ich habe den starken Eindruck, dass Du ein weibliches Wesen bist, habe ich recht?   :-)

                            ausser, dass Du meinst Kodierung ist mit character encoding treffend uebersetzt, das ist aber falsch.

                            Die Übersetzung ist die offizielle, mit anderen Worten, wenn du es anders definierst tust du es entgegen dem Rest der Welt.

                            Meine Diskussionen mit CK und anderen kulminierten in der Tat im Vorwurf, dass ich Woerter anders benutze als "alle anderen". Ich will mein Amusement da nicht verbergen, aber fragen wir mal Mr.Check und das leo dictionary:

                            http://dict.leo.org/?lp=ende&lang=de&searchLoc=0&cmpType=relaxed&relink=on&sectHdr=on&spellToler=std&search=kodierung

                            Einigen wir uns darauf, dass Kodierung am besten mit coding uebersetzt wird? Jetzt sollte es nur noch darum gehen den Unterschied zwischen code und coding zu erarbeiten, korrekt?

                            http://app.mr-check.de/a31db05310e9661a316a6a618b708208/v2.0/Mrcheck.php?CID=tanto1&SB=code
                            [http://app.mr-check.de/a31db05310e9661a316a6a618b708208/v2.0/Mrcheck.php?CID=tanto1&SB=coding]

                            Hmm, ich behaupte, dass es keinen gibt! (simple present: I code, progessive present I am coding, progressive present gibts im Deutschen nicht   ;-)

                            Aber Du kannst gerne noch etwas hinzubauen, was war zudem nicht OK an meinem fuer Dich laecherlichen Beitrag?

                            Gruss,
                            Ludger

                            1. Was dein komisches Mr. Check dazu sagt ist mir ziemlich egal. Ausschlaggebend ist, wie es in den offiziellen Übersetzungen der Orginal-Standards steht.

                              Mal abgesehen davon ist das engl. Coding mehrdeutiger als das dt. Kodierung. Hättest du dir die Rückübersetzungen von Coding und Encoding angesehen, wäre dir das bewusst geworden. Die bessere Übersetzung von Kodierung wäre in diesem Fall folglich Encoding, nicht Coding.

            2. Ludger,

              Unicode ist ein Code und ein Code ist eine Kodierung.

              Sehr .. äh .. phantasievoll.

              (Du spielst wohl auf UTF an?)

              Ja. Auf UTF-8, UTF-16, UTF-16LE, UTF-16BE, UTF-32, UTF-32LE und UTF-16BE im bzw. deren UCS-Pendants. Man könnte auch noch UTF-EBCDIC und UTF-7 dazu nehmen.

              Keines dieser Kodierungformate bzw. -schemata ist irgendwie als kanonisch definiert. Weswegen ich auch von Dir konkrete Bytes für das Zeichen 'ä' haben wollte. Dann könnte man endlich sehen, was Du fehlerhaft meinst, wenn Du sagst, dass man etwas "in Unicode kodiert". Du hast es ja leider immer noch nicht geschafft, da etwas anzugeben, obwohl das eigentlich ein Klacks sein sollte.

              (Merke: Ich nutze hier den Begriff Kodierung wie jeder andere in dem Bereich, nämlich die Umwandlung eines Code Points im Zeichensatz in tatsächliche Kette von Bits.)

              Ein besserer Weg statt dieser Gegenfrage waere es gewesen das was Du geschrieben hast und unverstanden blieb einfach noch mal neu zu schreiben, so zu sagen ein wenig herunterzubrechen.

              Ich hab's ja nicht geschrieben, Christian war das. An Deiner Texterfassung solltest Du noch etwas arbeiten. ;)

              Er schrieb, dass seine Charset-Routine einen Haufen Zeichen bekommt, mit dem Ziel die in eine Kodierung umzuwandeln. Wenn ein Zeichen dann nicht in der Zielkodierung enthalten ist, wird es in das dazugehörige HTML-Entity in numerischer Notation umgewandelt. Ich frag mich immer noch, was Du daran nicht verstanden haben könntest?

              Tim

              1. Hi,

                ich war da gestern sicherlich ein wenig indisponiert. An dieser Stelle eine Vertrauenserklaerung an Christian: der Mann kann ganz sicherlich gut kodieren und er bewegt auch etwas (die Macht des Faktischen ;-)

                Gruss,
                Ludger

                --
                "Heute bin ich noch indisponierter!"
              2. Hi,

                achso, zur Sache.

                Unicode ist ein Code und ein Code ist eine Kodierung.

                Sehr .. äh .. phantasievoll.

                Nicht fantasievoll, sondern richtig.

                (Merke: Ich nutze hier den Begriff Kodierung wie jeder andere in dem Bereich, nämlich die Umwandlung eines Code Points im Zeichensatz in tatsächliche Kette von Bits.)

                Formulierungen wie "jeder andere" rutschen mir den Buckel herunter. Ich empfehle stattdessen ein "Alle wissen..." oder ein "Haben wir schon immer so gemacht".

                Ich kodiere nun seit 26 Jahren und ich weiss was kodieren bedeutet und zwar - man lausche - die Nachbildung einer gegebenen realen Struktur oder eines realen Objektzugriffs "in IT". Wir haben naemlich auf der einen Seite die Realitaet und auf der anderen Seite die IT auf einem in der Realitaet stehenden System nachgebildet. Den Uebersetzungsvorgang "Realitaet->IT" nennt man Kodierung, den Vorgang "IT->Realitaet" Abstraktion. Auf der einen Seite (Realitaet) steht die Information, auf der anderen Seite ("IT") stehen die Daten.

                Ich hab's ja nicht geschrieben, Christian war das. An Deiner Texterfassung solltest Du noch etwas arbeiten. ;)

                Obs der Max oder der Moritz macht ...

                Er schrieb, dass seine Charset-Routine einen Haufen Zeichen bekommt, mit dem Ziel die in eine Kodierung umzuwandeln. Wenn ein Zeichen dann nicht in der Zielkodierung enthalten ist, wird es in das dazugehörige HTML-Entity in numerischer Notation umgewandelt. Ich frag mich immer noch, was Du daran nicht verstanden haben könntest?

                Eine Routine bekommt "Zeichen"? Diese werden in eine Kodierung "umgewandelt"? Ne, sorry, da erahne ich zwar was gemeint worden ist, aber blass gucken tue ich dennoch...

                Gruss,
                Ludger

                1. Ludger,

                  ... die Nachbildung einer gegebenen realen Struktur oder eines realen Objektzugriffs "in IT".

                  Oh, auf einer generelleren Metaebene stimme ich Dir bei diesem Konzept sogar zu - nur dürfte Dein sonstiger Gebrauch des Wörtchens "kodieren" im Unicode-Umfeld Deine Gegenüber eher erbleichen lassen. Dort entspricht das Wort "kodieren" nun mal dem "character encoding" des Unicode Standards und wird mit dieser Bedeutung benutzt. Aber ich bin sicher, Du wirst Dich auch dieser Herausforderung stellen.

                  Eine Routine bekommt "Zeichen"? Diese werden in eine Kodierung "umgewandelt"? Ne, sorry, da erahne ich zwar was gemeint worden ist, aber blass gucken tue ich dennoch...

                  Wie würdest Du es in Deinen Termini ausdrücken?

                  Tim

                  1. Hi,

                    Eine Routine bekommt "Zeichen"? Diese werden in eine Kodierung "umgewandelt"? Ne, sorry, da erahne ich zwar was gemeint worden ist, aber blass gucken tue ich dennoch...

                    Wie würdest Du es in Deinen Termini ausdrücken?

                    lass stecken Tim. Du hast schon genug Humor bewiesen und wir haben an und fuer sich kein Thema im Moment. - So zu sagen haben alle recht.   :-)

                    Viele Gruesse,
                    Ludger