cKonzi: Umlaute werden automat. in html-Code umgewandelt

Argh, habs vergessen. Gabs da nicht eine Serverkonfiguration?! Finde gerade nichts.

Problem: aus meiner Form möchte ich die verwendeten Zeichen prüfen, allerdings sind eingegebene Umlaute bereits html-isiert: ä zu ä

Warum, wieso, wer tut sowas.

  1. Hi,

    Problem: aus meiner Form möchte ich die verwendeten Zeichen prüfen, allerdings sind eingegebene Umlaute bereits html-isiert: ä zu ä

    Warum, wieso, wer tut sowas.

    PHP tut das nicht selber, so lange du nicht entsprechende Funktionen (bspw. htmlentities) auf solche Inhalte anwendest.

    Wer vielleicht die Daten schon in derart manipulierter Form verschickt - der Browser.
    Wenn du Zeichen eingibst, die sich in der aktuellen Kodierung nicht darstellen lassen, dann senden manche Browser stattdessen die Entity-Version des Zeichens. Dann müsstest du bei der Wahl der Kodierung aber schon etwas sehr seltsames genommen haben.

    MfG ChrisB

    --
    RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
    1. PHP tut das nicht selber, so lange du nicht entsprechende Funktionen (bspw. htmlentities) auf solche Inhalte anwendest.

      OK??!!! Dann gehe ich mal suchen :)
      Verwende ISO8859-2.

      Irgendein Tipp zum Debuggen? Wenn ich die eingelesene Var. ausgebe, steht ja schon immer wieder "ä" dort (interpretiert). Irgendeine [code]-Umgebung. <textarea> funktioniert nicht.

      1. Hi,

        Irgendein Tipp zum Debuggen? Wenn ich die eingelesene Var. ausgebe, steht ja schon immer wieder "ä" dort (interpretiert).

        der Quellcode der Ausgabe wird von keinem mir bekannten Browser dergestalt interpretiert.

        Irgendeine [code]-Umgebung. <textarea> funktioniert nicht.

        Strg+U funktioniert u.a. in Firefox.

        Cheatah

        --
        X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
        X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. ähh, ja, richtig :)

      2. Moin!

        OK??!!! Dann gehe ich mal suchen :)
        Verwende ISO8859-2.

        ISO 8859-2 versucht, möglichst viele Sonderzeichen  mittel- und teilweise südosteuropäischer, überwiegend slawischer Sprachen abzudecken

        ISO 8859-2 kann viel- aber keine teutonischen "Ähs", "Üfftas" tröten.

        Irgendein Tipp zum Debuggen?

        Erst einmal auf einen Zeichensatz umstellen der überhaupt auch deutsche Umlaute darstellen kann.

        Zum Debuggen ist dann jedes Werkzeug besser als ein Browser oder gar die Windows-Shell die wieder in den deutschen Versionen Codepage 850 ("IBM 850") versteht oder auf diese eingestellt ist.

        MFFG (Mit freundlich- friedfertigem Grinsen)

        fastix

        1. Hi,

          ISO 8859-2 versucht, möglichst viele Sonderzeichen  mittel- und teilweise südosteuropäischer, überwiegend slawischer Sprachen abzudecken

          Der Text an der zitierten Stelle geht weiter:
          „darunter folgende: [...], Deutsch, [...]“

          ISO 8859-2 kann viel- aber keine teutonischen "Ähs", "Üfftas" tröten.

          Und die auf der Seite auch aufgeführte Tabelle hast du dir wohl auch nicht angeschaut? In der findest du nämlich auch Ä/ä, Ö/ö, Ü/ü und ß.

          MfG ChrisB

          --
          RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
  2. Moin!

    Warum, wieso,

    Du solltest prüfen oder besser wissen, was Deine - oder genauer die von Dir eingesetzten Skripte tun.

    wer tut sowas.

    Jemand, der nicht oder nicht richtig verstanden hat wie Zeichensätze angewendet werden oder jemand, der will, dass seine Umlaute bei einem Zeichensatzwechsel - z.B. bei Einsatz verschiedener Fertigskripte - "kaputt" gehen und den Anwendern seiner Fertigskripte nicht zutraut, dass sich diese selbst um die Angabe des Zeichensatzes kümmern - was wieder daran liegen kann, dass dessen Skripte Schrott sind, weil er den verwendeten Zeichensatz an ungefähr 2000 Stellen hart in jedem Skript codiert hat statt sie in einer Konfigurationdatei abzulegen, oder diesen an notwendigen Stellen ignoriert.

    Solche Leute sind dann nämlich sehr fleißig und schreiben (oder benutzen) große Tabellen um Zeichen in Entities zu verwandeln.  Das findet man leider sehr oft - und ich dachte immer es sei die Faulheit gewesen, die den Mensch zu einem intelligenten Lebewesen geformt hat.

    MFFG (Mit freundlich- friedfertigem Grinsen)

    fastix

    1. @@fastix®:

      nuqneH

      Jemand, der nicht oder nicht richtig verstanden hat wie Zeichensätze angewendet werden

      Fauxpas.

      bei einem Zeichensatzwechsel

      Es gibt keinen. Der Zeichensatz ist und bleibt immer Unicode.

      Du meinst Zeichencodierungen.

      Qapla'

      --
      Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
      (Mark Twain)
      1. Moin!

        Du meinst Zeichencodierungen.

        Dann eben "Bei einem Wechsel der verwendeten Zeichencodierung". Manche sind hier wohl nur zu dem Zweck anwesend, echt griechische Korinthen zu kacken.

        Was hattest Du bitte Konstruktives zu verlautbaren? Das hast Du offensichtlich der Aufregung wegen vergessen zu notieren.

        MFFG (Mit freundlich- friedfertigem Grinsen)

        fastix

        1. Hi,

          Dann eben "Bei einem Wechsel der verwendeten Zeichencodierung". Manche sind hier wohl nur zu dem Zweck anwesend, echt griechische Korinthen zu kacken.

          Und du kannst mit einer kleinen Korrektur nicht leben, und musst sofort die beleidigte Leberwurst spielen?

          MfG ChrisB

          --
          RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
          1. Moin!

            Und du kannst mit einer kleinen Korrektur nicht leben

            Irrtum: Ich lebe wohl noch. Aber jetzt frage ich Dich mal nach dem Motiv aus welchen heraus Du diese "kleine Korrektur" unbedingt anbringen musstest. Ein fachlicher Grund kann es kaum sein. Also könnte es sein, dass Du Dich jetzt über genau die Reaktion ärgerst, die Deine Krittelei hervorrufen sollte?

            MFFG (Mit freundlich- friedfertigem Grinsen)

            fastix

            1. Hi,

              Und du kannst mit einer kleinen Korrektur nicht leben

              Irrtum: Ich lebe wohl noch.

              Aber du bist darüber so aus dem Häuschen ...

              Aber jetzt frage ich Dich mal nach dem Motiv aus welchen heraus Du diese "kleine Korrektur" unbedingt anbringen musstest.

              ... das du mich und Gunnar nicht auseinanderhalten kannst?

              Entspann' dich mal!

              Ein fachlicher Grund kann es kaum sein. Also könnte es sein, dass Du Dich jetzt über genau die Reaktion ärgerst, die Deine Krittelei hervorrufen sollte?

              Wenn du dich so weit aus dem Fenster lehnst,

              wer tut sowas.
              Jemand, der nicht oder nicht richtig verstanden hat wie Zeichensätze angewendet werden

              • dann solltest du auch mit dem Hinweis klarkommen, dass du dich selbst nicht fachlich korrekt ausgedrückt hast - und zwar in Bezug auf genau die Thematik, bzgl. der du den Wissensstand anderer gerade kritisiert hast.

              Remember: „Wer austeilen kann ...“

              MfG ChrisB

              --
              RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
              1. Moin!

                Remember: „Wer austeilen kann ...“

                Wenn ich mir sinnfreien Mist wie "Der Zeichensatz ist und bleibt immer Unicode" vorhalten lassen muss, dann darf ich das auch. Wenn Du meinen ursprünglichen Beitrag richtig gelesen hättest, dann hätte Dir auch auffallen müssen, dass die Kritik sich an folgende Personen richtete:

                Jemand, der ... den Anwendern seiner Fertigskripte nicht zutraut, dass sich diese selbst um die Angabe des Zeichensatzes kümmern.

                (Oder eben der Kodierung)

                MFFG (Mit freundlich- friedfertigem Grinsen)

                fastix

                1. Hi,

                  Remember: „Wer austeilen kann ...“

                  Wenn ich mir sinnfreien Mist wie "Der Zeichensatz ist und bleibt immer Unicode" vorhalten lassen muss, dann darf ich das auch.

                  Ich bezog mich auf dein Austeilen *davor*.

                  Wenn Du meinen ursprünglichen Beitrag richtig gelesen hättest,

                  Große Töne ... wenn du dir nicht mal die Mühe machst, mich richtig zu verstehen.

                  dann hätte Dir auch auffallen müssen, dass die Kritik sich an folgende Personen richtete:

                  Jemand, der ... den Anwendern seiner Fertigskripte nicht zutraut, dass sich diese selbst um die Angabe des Zeichensatzes kümmern.

                  Das ist mir nicht entgangen, und genau aus dem Grund habe ich es zitiert.

                  (Oder eben der Kodierung)

                  Und eben weil du dich fachlich nicht korrekt ausgedrückt hast (bei deinem Versuch, fachliche Kritik an anderen zu üben), hat Gunnar dich in diesem Punkt korrigiert.

                  Kannst du das nicht einfach akzeptieren, musst du stattdessen jetzt hier so eine Heulerei veranstalten?

                  MfG ChrisB

                  --
                  RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                  1. Moin!

                    Kannst du das nicht einfach akzeptieren, musst du stattdessen jetzt hier so eine Heulerei veranstalten?

                    Warum sollte ich mich von jemanden so barsch kritisieren lassen, der selbst Unsinn schreibt? "Zeichensatz" und "Zeichensatzkodierung" verwenden viele als Synonym - da bin ich längst nicht der einzige. Und wer mich - ohne jeden hilfreichen Bezug zur Ausgangsfrage - belehren muss ohne selbst zu wissen, dass der Zeichensatz längst nicht "immer Unicode" ist, der darf dann auch meine Kritik am seiner Korinthenkackerei vertragen. Denn was anderes war das auch nicht.

                    MFFG (Mit freundlich- friedfertigem Grinsen)

                    fastix

                    1. Hi,

                      Warum sollte ich mich von jemanden so barsch kritisieren lassen, der selbst Unsinn schreibt?

                      Ich belasse es jetzt einfach dabei: Zitat #1621

                      MfG ChrisB

                      --
                      RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                      1. Moin!

                        Ach, zitieren kann ich auch:

                        Dein Lachen ist sachlich,
                        Dein reden so fachlich
                        korrekt und so wichtig,
                        Du machst alles richtig.
                        Ja, ja.
                        Und ich steh daneben
                        und denke, mein Leben
                        läuft völlig verkehrt,
                        Du hast mich belehrt.
                        Belehrt über Weiber,
                        über Titten und Leiber,
                        über Vögel wie mich
                        und tolle Typen wie Dich.
                        Ja, ja.

                        MFFG (Mit freundlich- friedfertigem Grinsen)

                        fastix

                    2. Hi!

                      Warum sollte ich mich von jemanden so barsch kritisieren lassen, der selbst Unsinn schreibt? "Zeichensatz" und "Zeichensatzkodierung" verwenden viele als Synonym - da bin ich längst nicht der einzige. Und wer mich - ohne jeden hilfreichen Bezug zur Ausgangsfrage - belehren muss ohne selbst zu wissen, dass der Zeichensatz längst nicht "immer Unicode" ist, [...]

                      Und was wäre, wenn es doch so ist? Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode. Die Zeichenkodierung hingegen ist beispielsweise UTF-8 oder ISO-8859-1 sein. Nur so kann man trotz ISO-8859-1 Zeichen verwenden, die mit dieser Zeichenkodierung gar nicht repräsentierbar sind. Mit den Ersatzschreibweisen NCR (&#x20AC;) oder Entity-Referenz (&euro;) bekommt man sie doch noch ins Dokument.

                      Gerade hier ist das Verständnis vom Unterschied zwischen Zeichensatz und Zeichenkodierung wichtig.

                      Lo!

                      1. Moin!

                        Und was wäre, wenn es doch so ist? Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.

                        Nö. Abhängig von der gewählten Codierung ist als "der Zeichensatz" erst einmal der Vorrat an Zeichen zu betrachten, der mit in der gewählten Kodierung ohne Krücken wie Entities übertragbar ist. Und das ist bei ISO 8859-2 eben nicht "UTF".  "UTF" gibt es nicht Zeichensatz. Es gibt aber "Universal Character Set" mit dem Akronym ("UCS").

                        Ich kann nämlich aus diese Korinthen kacken.

                        MFFG (Mit freundlich- friedfertigem Grinsen)

                        fastix

                        1. Hi,

                          Und was wäre, wenn es doch so ist? Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.

                          Nö. Abhängig von der gewählten Codierung ist als "der Zeichensatz" erst einmal der Vorrat an Zeichen zu betrachten, der mit in der gewählten Kodierung ohne Krücken wie Entities übertragbar ist.

                          Nur, weil du dir hier deine eigenen Definitionen zurechtbastelst (und das fein so, wie sie gerade in deine Argumentation passen), wird's nicht richtiger.

                          Und das ist bei ISO 8859-2 eben nicht "UTF".  "UTF" gibt es nicht Zeichensatz.

                          Das hat auch niemand als Zeichensatz bezeichnet - sondern Unicode.

                          Ich kann nämlich aus diese Korinthen kacken.

                          Warte damit doch bitte, bis du wenigstens das richtig hinkriegst.

                          MfG ChrisB

                          --
                          RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                          1. Moin!

                            Nur, weil du dir hier deine eigenen Definitionen zurechtbastelst (und das fein so, wie sie gerade in deine Argumentation passen), wird's nicht richtiger.

                            Nun, das kann man so und so sehen. Die andere Definition "Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode." hat sich ja auch jemand zusammengebastelt, der sie gerade passend fand.

                            Die Grenzen dessen findet man nämlich ziemlich schnell, z.B. bei einer Erstausgabe von Windows 2000 ohne Updates oder spätere Software wie z.B. MS-Office, die neue Schriftarten installierten. Das originale Windows 2000 kann trotz "Unicode" kein € - Symbol. Und zwar weder mit noch ohne Entities, weil den Schriftarten einfach das Zeichen fehlte. Hier begrenzen diese den "Zeichensatz", also den Zeichenvorrat, der darstellbar ist - und zwar nach meiner und Deiner "Definition" (Du erlaubst Entities und numerische Umschreibungen).

                            Mit dem Unicode/UTF hast Du wohl recht. Er schrieb Unicode.

                            MFFG (Mit freundlich- friedfertigem Grinsen)

                            fastix

                            1. Hi,

                              Die Grenzen dessen findet man nämlich ziemlich schnell, z.B. bei einer Erstausgabe von Windows 2000 ohne Updates oder spätere Software wie z.B. MS-Office, die neue Schriftarten installierten. Das originale Windows 2000 kann trotz "Unicode" kein € - Symbol. Und zwar weder mit noch ohne Entities, weil den Schriftarten einfach das Zeichen fehlte.

                              Damit ist das Zeichen im Zeichensatz sehr wohl „darstellbar“ - im Sinne von, es kann eindeutig und zweifelsfrei übermittelt werden, welches Zeichen an dieser Stelle gemeint ist.

                              Wenn dem Client dann die Darstellungsvorschrift in Form einer Glyphe in der/den verwendeten Schriftart(en) fehlt, dann mag er kein visuelle Repräsentation dieses Zeichens zustande bringen - das ist aber m.E. eine andere Geschichte.

                              Hier begrenzen diese den "Zeichensatz", also den Zeichenvorrat, der darstellbar ist - und zwar nach meiner und Deiner "Definition" (Du erlaubst Entities und numerische Umschreibungen).

                              Nur, wenn du den Begriff „Zeichensatz“ wieder so schwammig fasst, dass er zum Problem passt.

                              MfG ChrisB

                              --
                              RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                              1. Moin!

                                Damit ist das Zeichen im Zeichensatz sehr wohl „darstellbar“ - im Sinne von, es kann eindeutig und zweifelsfrei übermittelt werden, welches Zeichen an dieser Stelle gemeint ist.

                                Wie sollte das gehen? Erst Unicode 2.1.0 fügte im Mai 1998 das Eurozeichen und einige weitere Zeichen hinzu. Das hatte Microsoft in Windows 2000 noch nicht verarbeitet, kam erst per Update oder mit dem MS-Office. Also konnte das €- Symbol weder "eindeutig und zweifelsfrei übermittelt werden", noch konnte bestimmt werden, "welches Zeichen an dieser Stelle gemeint ist".

                                MFFG (Mit freundlich- friedfertigem Grinsen)

                                fastix

                                1. Hi,

                                  Damit ist das Zeichen im Zeichensatz sehr wohl „darstellbar“ - im Sinne von, es kann eindeutig und zweifelsfrei übermittelt werden, welches Zeichen an dieser Stelle gemeint ist.

                                  Wie sollte das gehen? Erst Unicode 2.1.0 fügte im Mai 1998 das Eurozeichen und einige weitere Zeichen hinzu.

                                  Und damit war es seitdem per Unicode darstellbar, und in einer der Kodierungen, die Unicode kodieren können, auch transportierbar.

                                  Das hatte Microsoft in Windows 2000 noch nicht verarbeitet, kam erst per Update oder mit dem MS-Office. Also konnte das €- Symbol weder "eindeutig und zweifelsfrei übermittelt werden", noch konnte bestimmt werden, "welches Zeichen an dieser Stelle gemeint ist".

                                  Doch, natürlich konnte es das.
                                  Dass der *Empfänger* es auf Grund nicht aktuell gehaltener Implementierung nicht zu interpretieren wusste, ist doch wieder eine andere Geschichte.

                                  Damit, was in einem HTML-Dokument als Zeichen untergebracht werden kann, hat das nun aber wirklich herzlich wenig zu tun.

                                  MfG ChrisB

                                  --
                                  RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                2. Moin!

                                  Wir drehen und im Kreis. Die Frage war ob der Zeichensatz  (erst von Dedefix nachträglich beschränkt auf den HTML- Zeichensatz) _immer_ Unicode ist und das ist nicht zutreffend, denn sonst müsste jedes Zeichen aus dem Unicode-Zeichensatz im HTML-Code _immer_ gültig sein. HTML 2.0 sah dies jedoch ausdrücklich nicht vor sondern enthielt genau deswegen eine nette Liste mit HTML-Entities zur Umschreibung derjenigen Zeichen, welche zwar "Unicode", aber eben nicht in ISO 8859-1 enthalten waren.

                                  Alles andere ist "Drum-herum-Gerede".

                                  MFFG (Mit freundlich- friedfertigem Grinsen)

                                  fastix

                                  1. Hi,

                                    HTML 2.0 sah dies jedoch ausdrücklich nicht vor [...]

                                    Alles andere ist "Drum-herum-Gerede".

                                    Und das ist eine Ausflucht in längst vergessene Vergangenheit, um irgendwie Recht zu behalten ...

                                    MfG ChrisB

                                    --
                                    RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                    1. Moin!

                                      Und das ist eine Ausflucht in längst vergessene Vergangenheit, um irgendwie Recht zu behalten ...

                                      Nein. Es ist ein klarer Bezug auf die Norm, die der falschen Behauptung entgegensteht.

                                      Nur falls jemand behauptet, es gäbe keine HTML 2.0- Seiten mehr: Hier klicken.

                                      MFFG (Mit freundlich- friedfertigem Grinsen)

                                      fastix

                                      1. Hi,

                                        Und das ist eine Ausflucht in längst vergessene Vergangenheit, um irgendwie Recht zu behalten ...

                                        Nein. Es ist ein klarer Bezug auf die Norm, die der falschen Behauptung entgegensteht.

                                        Es ist Korinthenkackerei.

                                        Die Aussage ist spätestens dann absolut korrekt, wenn du das Wort „HTML“ darin um den Zusatz „4.01“ ergänzt.
                                        Dieser kann aber entfallen, wenn wir davon ausgehen, dass wir uns hier über aktuelles unterhalten, und nicht über längst obsoletes.

                                        Nur falls jemand behauptet, es gäbe keine HTML 2.0- Seiten mehr: Hier klicken.

                                        Das ist fachlich ebenso relevant, wie wenn du der Aussage, Autos wären vorwiegend aus Metall entgegenhältst, dass es mal Trabbis gab. Schön für dich, aber heutzutage uninteressant.

                                        MfG ChrisB

                                        --
                                        RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                        1. Moin!

                                          Die Aussage ist spätestens dann absolut korrekt, wenn du das Wort „HTML“ darin um den Zusatz „4.01“ ergänzt.

                                          Ich ergänze gar nichts, ich stelle wie folgt fest: Wenn der Hund nicht geschissen hätte, dann wäre unmöglich gewesen in den dadurch entstandenen Haufen zu treten. Der Hund hat aber geschissen, jemand ist in den Haufen getreten und jetzt stinkt der Schuh.

                                          Dieser kann aber entfallen, wenn wir davon ausgehen, dass wir uns hier über aktuelles unterhalten, und nicht über längst obsoletes.

                                          Habe ich die folgende Behauptung als allgemeingültig aufgestellt: "Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument  immer Unicode"?

                                          Nein, ich habe, um das zu widerlegen, korrekt auf ein existentes HTML-Dokument verwiesen und anhand dessen Spezifikation aufgezeigt, dass in diesem Unicode nicht gültig ist.

                                          Nur falls jemand behauptet, es gäbe keine HTML 2.0- Seiten mehr: Hier klicken.

                                          Genau dieses:
                                          <!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">

                                          Ist gültig und wird sogar vom Validator noch validiert.

                                          Das ist fachlich ebenso relevant,

                                          Ich habe mich nicht aus dem Fenster gelehnt und durch das Wort "immer" und eine Aussage als allgemeingültig gestempelt, die es einfach nicht ist. Zwischen "immer" und einem wie auch immer gelagerten "relevantem Umfang" gibt es einen relevanten Unterschied. Und ich habe den Streit nicht gesucht. Ich habe auch mit der Korinthenkackerei nicht angefangen, sondern nur mal gezeigt: "He! Das kann ich aber auch!"

                                          wie wenn du der Aussage, Autos wären vorwiegend aus Metall entgegenhältst, dass es mal Trabbis gab.

                                          Schön für Dich zu wissen, dass es mal Trabbis gab. Allerdings weiß ich sehr wohl, dass eine Aussage, wonach diese nicht vorwiegend aus Metall(*) seien, schlicht ebenso falsch ist, wie diejenige, dass der Zeichensatz eines HTML-Dokumentes immer Unicode sei. Jetzt darfst Du Dich also zusätzlich über das Wissen freuen, dass ich die mir unterstellte Aussage nicht getätigt hätte, weil ich sehr wohl und sehr genau weiß, dass Trabbis überwiegend aus Metall(**) gefertigt wurden.

                                          Schön für dich, aber heutzutage uninteressant.

                                          Vermutlich sehen das einschlägig beschäftigte oder interessierte Ingenieure und/oder Werkstofftechniker etwas abweichend von Deiner Einzelmeinung. Eine Bestätigung dafür mag ein genauer Blick auf sehr aktuelle Modelle im Bereich der Renn- und Sportwagen bieten. Allerdings waren es im Trabbi Baumwoll- statt Kohlefasern.

                                          MFFG (Mit freundlich- friedfertigem Grinsen)

                                          fastix

                                          --
                                          *) Der Trabbi war nur mit Plastik beplankt. Ansonsten bestand selbst die Karosse aus Metall.
                                          **) Nach dem Maßstab des Gewichtes. Nimmt man die sichtbare Oberfläche (also die äußere Fläche ohne den Fahrzeugboden) als Maßstab dann mag da eine größere - nicht die gesamte - Fläche aus Plastik bestand haben.
                                3. @@fastix®:

                                  nuqneH

                                  Wie sollte das gehen? Erst Unicode 2.1.0 fügte im Mai 1998 das Eurozeichen und einige weitere Zeichen hinzu.

                                  Ja und? Was ändert das an der Tatsache, dass der Dokumentzeichendsatz eines HTML-Dokuments* Unicode (in der gegenwärtigen Fassung!) ist?

                                  Bis Mai 1998** gehörte das €-Zeichen nicht zum Dokumentzeichendsatz, ab Mai 1998 schon.

                                  Qapla'

                                  * ab HTML-Version 4.0
                                  ** Ich hab mir nicht die Mühe gemacht, das nachzuprüfen. Ich vertraue dir an der Stelle einfach mal.

                                  --
                                  Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                                  (Mark Twain)
                        2. Hi,

                          Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.

                          Nö. Abhängig von der gewählten Codierung ist als "der Zeichensatz" erst einmal der Vorrat an Zeichen zu betrachten, der mit in der gewählten Kodierung ohne Krücken wie Entities übertragbar ist. Und das ist bei ISO 8859-2 eben nicht "UTF".  "UTF" gibt es nicht Zeichensatz.

                          Hat niemand behauptet.

                          Es gibt aber "Universal Character Set" mit dem Akronym ("UCS").

                          Eben - und das ist weitgehend identisch mit Unicode.

                          http://en.wikipedia.org/wiki/Universal_Character_Set#Differences_between_ISO_10646_and_Unicode:
                          “ISO 10646 and Unicode have an identical repertoire and numbers — the same characters with the same numbers exist on both standards. The difference between them is that Unicode adds rules and specifications that are outside the scope of ISO 10646.”

                          HTML 4.01 Specification, 5.1 The Document Character Set:
                          “The ASCII character set is not sufficient for a global information system such as the Web, so HTML uses the much more complete character set called the Universal Character Set (UCS), defined in [ISO10646]. This standard defines a repertoire of thousands of characters used by communities all over the world.
                          The character set defined in [ISO10646] is character-by-character equivalent to Unicode ([UNICODE]). Both of these standards are updated from time to time with new characters, and the amendments should be consulted at the respective Web sites. In the current specification, "[ISO10646]" is used to refer to the document character set while "[UNICODE]" is reserved for references to the Unicode bidirectional text algorithm.”

                          An dieser Stelle könnte man jetzt vielleicht Korinthen kacken, wenn man wollte - aber trotzdem würde ich die Aussage von dedlfix,

                          Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.

                          deshalb nicht als falsch bezeichnen.

                          MfG ChrisB

                          --
                          RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                          1. Moin!

                            http://tools.ietf.org/html/rfc1866
                            unter 1.2.1. nachlesen, dann 13. und dann 9.5.

                            Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument nicht immer Unicode.

                            Mag HTML 2.0 sein - aber wer bitte hat denn "immer" gesagt?

                            MFFG (Mit freundlich- friedfertigem Grinsen)

                            fastix

                            1. Hi,

                              http://tools.ietf.org/html/rfc1866
                              unter 1.2.1. nachlesen,

                              “Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

                              ISO-10646 ist - UCS.

                              dann 13.

                              13. The HTML Coded Character Set

                              • Betonung hier auf *coded* - das definiert die Zeichen, für die explizit NCRs definiert sind.

                              und dann 9.5.

                              Das bezieht sich m.M.m auf die Zeichen, die direkt im Code stehen können.

                              Mag HTML 2.0 sein -

                              Eben - Relevanz heutzutage gleich Null.

                              aber wer bitte hat denn "immer" gesagt?

                              Korinthenkacker :-)

                              MfG ChrisB

                              --
                              RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                              1. Moin!

                                Gunnar Bittersmann:
                                "Der Zeichensatz ist und bleibt immer Unicode."

                                dedlfix konkretisiert:
                                Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.

                                “Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

                                Übersetzt: Dessen (gemeint ist HTML 2.0) Zeichensatz beinhaltet die Zeichen aus ISO-8859-1 und stimmt mit ISO-10646 überein.

                                Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente, welche im HTML 2.0 Code - damit dieser valid war - umschrieben werden mussten. Durch Entities.

                                und dann 9.5.
                                Das bezieht sich m.M.m auf die Zeichen, die direkt im Code stehen können.

                                Genau.

                                *** w.z.b.w. ***

                                MFFG (Mit freundlich- friedfertigem Grinsen)

                                fastix

                                1. Hi,

                                  “Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

                                  Übersetzt: Dessen (gemeint ist HTML 2.0) Zeichensatz beinhaltet die Zeichen aus ISO-8859-1 und stimmt mit ISO-10646 überein.

                                  Ja, „includes“, beinhaltet - aber mitnichten, „besteht ausschließlich aus“.

                                  Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente

                                  Wie können sie dann übereinstimmen?

                                  ISO-8859-1 als Teilmenge von ISO-10646 und damit UCS zu bezeichnen, erscheint mir die sinnvollere Formulierung zu sein.

                                  MfG ChrisB

                                  --
                                  RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                  1. Moin!

                                    “Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

                                    Übersetzt: Dessen (gemeint ist HTML 2.0) Zeichensatz beinhaltet die Zeichen aus ISO-8859-1 und stimmt mit ISO-10646 überein.

                                    Ja, „includes“, beinhaltet - aber mitnichten, „besteht ausschließlich aus“.

                                    Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente

                                    Wie können sie dann übereinstimmen?

                                    Dann liefere eine bessere Übersetzung.

                                    ISO-8859-1 als Teilmenge von ISO-10646 und damit UCS zu bezeichnen, erscheint mir die sinnvollere Formulierung zu sein.

                                    Ja. Aber nur diese Teilmenge ist gültig (valid) im HTML-Code sofern HTML 2.0 verwendet wird.

                                    Das ist nicht wegzudiskutieren. Es ist erweislich wahr, dass "der Zeichensatz (= gesamte Vorrat an Zeichen) bei einem HTML-Dokument" gerade nicht "immer Unicode" ist.

                                    Das wurde von anderen behauptet und von mir bestritten.

                                    Im Übrigen ist es auch so, dass bei neueren (X)HTML-Versionen mit der Übermittlung einer Kodierung auch stets eine Einschränkung des Zeichenvorrates stattfindet. Denn wenn man einen "Content-Type text/html" und eine Kodierung sendet, anweist, oder angibt, dann ist ein Zeichen außerhalb dieser Kodierung stets nicht definiert und damit formell ungültig. Also ist der Zeichenvorrat bei einem solchen HTML-Dokument auch dann nicht "Unicode" sondern entspricht dem Vorrat an Zeichen, der durch die Kodierung ohne Entitie-Krücken darstellbar ist.

                                    MFFG (Mit freundlich- friedfertigem Grinsen)

                                    fastix

                                    1. Hi,

                                      Das kommt daher, dass der Zeichensatz ISO-8859-1 mit dem Zeichensatz ISO-10646 überein stimmt. Letzterer enthält aber mehr Elemente

                                      Wie können sie dann übereinstimmen?

                                      Dann liefere eine bessere Übersetzung.

                                      Nein, interpretiere du bitte erst mal den Satz korrekt.

                                      “Its document character set includes [ISO-8859-1] and agrees with [ISO-10646]”

                                      Nicht ISO-8859-1 ist hier das, was “agreed”, sondern “its document character set [...] agrees with [ISO-10646]”

                                      Ja. Aber nur diese Teilmenge ist gültig (valid) im HTML-Code sofern HTML 2.0 verwendet wird.

                                      Das ist nicht wegzudiskutieren.

                                      Ebenso wenig ist es relevant.

                                      Bestehende HTML 2.0-Dokumente mögen heutzutage noch vereinzelt „Bestandsschutz“ genießen - aber niemand, der noch alle Tassen im Schrank hat, wird HTML-Dokumente heutzutage noch nach diesem Standard erstellen.

                                      Es ist erweislich wahr, dass "der Zeichensatz (= gesamte Vorrat an Zeichen) bei einem HTML-Dokument" gerade nicht "immer Unicode" ist.

                                      Für HTML nach den aktuellen Standards ist es sehr wohl war.

                                      Im Übrigen ist es auch so, dass bei neueren (X)HTML-Versionen mit der Übermittlung einer Kodierung auch stets eine Einschränkung des Zeichenvorrates stattfindet. Denn wenn man einen "Content-Type text/html" und eine Kodierung sendet, anweist, oder angibt, dann ist ein Zeichen außerhalb dieser Kodierung stets nicht definiert und damit formell ungültig. Also ist der Zeichenvorrat bei einem solchen HTML-Dokument auch dann nicht "Unicode" sondern entspricht dem Vorrat an Zeichen, der durch die Kodierung ohne Entitie-Krücken darstellbar ist.

                                      Hier machst du eben wieder den Fehler, mit dem diese ganze Diskussion ihren Anfang nahm.

                                      http://www.w3.org/TR/1999/REC-html401-19991224/charset.html#h-5.1:
                                      “The ASCII character set is not sufficient for a global information system such as the Web, so HTML uses the much more complete character set called the Universal Character Set (UCS), defined in [ISO10646].
                                      [...]
                                      The document character set, however, does not suffice to allow user agents to correctly interpret HTML documents as they are typically exchanged -- encoded as a sequence of bytes in a file or during a network transmission. User agents must also know the specific character encoding that was used to transform the document character stream into a byte stream.”

                                      Hier wird deutlich zwischen dem document character set und dem character encoding unterschieden - eine Differenzierung, zu der du dich immer noch nicht willens oder in der Lage zeigst.
                                      Es ist also ganz offensichtlich richtig und notwendig, dich darauf hinzuweisen - was Gunnar anfangs tat.

                                      So lange du das nicht ändern kannst oder willst, gibt es hier für mich nichts weiter mit dir zu diskutieren.

                                      MfG ChrisB

                                      --
                                      RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                      1. Hi,

                                        Im Übrigen ist es auch so, dass bei neueren (X)HTML-Versionen mit der Übermittlung einer Kodierung auch stets eine Einschränkung des Zeichenvorrates stattfindet. Denn wenn man einen "Content-Type text/html" und eine Kodierung sendet, anweist, oder angibt, dann ist ein Zeichen außerhalb dieser Kodierung stets nicht definiert und damit formell ungültig. Also ist der Zeichenvorrat bei einem solchen HTML-Dokument auch dann nicht "Unicode" sondern entspricht dem Vorrat an Zeichen, der durch die Kodierung ohne Entitie-Krücken darstellbar ist.

                                        Um noch zu verdeutlichen, dass du mit dieser Interpretation falsch liegst - darauf geht 5.3 Character references explizit ein:

                                        “A given character encoding may not be able to express all characters of the document character set. For such encodings [...] authors may use SGML character references. Character references are a character encoding-independent mechanism for entering any character from the document character set.”

                                        MfG ChrisB

                                        --
                                        RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
                                      2. Moin!

                                        Hier wird deutlich zwischen dem document character set und dem character encoding unterschieden - eine Differenzierung, zu der du dich immer noch nicht willens oder in der Lage zeigst.

                                        Ich fühl mich beschissen,
                                        das konn't ich nicht wissen.
                                        Du bist nun mein Held
                                        und erklärst mir die Welt.
                                        Ja, ja.

                                        Schön für Dich, dass alle anderen doof sind.

                                        MFFG (Mit freundlich- friedfertigem Grinsen)

                                        fastix

                                2. Hi!

                                  *** w.z.b.w. ***

                                  Natürlich kannst du versuchen, durch nicht mehr relevante (HTML < 4) oder überhaupt nicht relevante Themen (Windows) irgendwas zu beweisen, aber damit entfernst du dich von der von uns gemeinten Diskussionsbasis. Ich kann dir dann nur hinterherwinken und hoffen, dass du dich nicht noch mehr verrennst.

                                  Lo!

                            2. @@fastix®:

                              nuqneH

                              Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument nicht immer Unicode.

                              Mag HTML 2.0 sein - aber wer bitte hat denn "immer" gesagt?

                              Ich. Und im selben Satz hatte ich [DOC-CHARSET] verlinkt, wo eindeutig „HTML (ab Version 4.0)“ geschrieben steht. Wärest du mal dem Link gefolgt, hättest du den Kontext meiner Aussage verstanden.

                              Ich darf dich zitieren: „Manche sind hier wohl nur zu dem Zweck anwesend, echt griechische Korinthen zu kacken.“

                              Qapla'

                              --
                              Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                              (Mark Twain)
                        3. Hi!

                          Und was wäre, wenn es doch so ist? Der Zeichensatz (= gesamte Vorrat an Zeichen) ist bei einem HTML-Dokument immer Unicode.
                          Nö.

                          Da kannst du dich drehen und winden, wie du willst, das ist in der HTML-Spezifikation so festgelegt. ChrisB zitierte die relevante Stelle bereits.

                          Abhängig von der gewählten Codierung ist als "der Zeichensatz" erst einmal der Vorrat an Zeichen zu betrachten, der mit in der gewählten Kodierung ohne Krücken wie Entities übertragbar ist.

                          Der für HTML insgesamt definierte Vorrat und der durch die gewählte Codierung eines einzelnen HTML-Dokuments repräsentierbare Vorrat sind durchaus zwei verschiedene Dinge. Mit der Dokumentkodierung können unter Umständen nicht alle Zeichen direkt transportiert werden, wenn mit dieser weniger als die in Unicode definierten Zeichen kodierbar sind. Zu jeder Kodierung gehört natürlich auch ein Zeichenvorrat, dessen Zeichen mit der Kodierung(svorschrift) in eine konkrete für die Datenverarbietung nutzbare Form gebracht werden kann. Somit hast du den für HTML nutzbaren Zeichenvorrat auf der einen Seite und den mit der Dokumentkodierung direkt darstellbaren auf der anderen Seite.

                          Und das ist bei ISO 8859-2 eben nicht "UTF". "UTF" gibt es nicht Zeichensatz.

                          Hab ich nicht behauptet. ISO-8859-x oder UTF-x wären Kodierungen eines konkreten HTML-Dokuments. Der insgesamt verwendbare Zeichenvorrat bleibt weiterhin Unicode. Mit ISO-8859-x bekommst du jeweils 255 Zeichen daraus direkt und über die Ersatzschreibweisen auch alle anderen Zeichen in einem konkreten HTML-Dokument transportiert. Mit den UTF-x-Kodierungen sind alle Unicode-Zeichen ohne Umwege repräsentierbar.

                          Es gibt aber "Universal Character Set" mit dem Akronym ("UCS").

                          Der Unterschied zwischen Unicode und ISO 10464/UCS ist praktisch bedeutungslos. Deshalb kann man im Allgemeinen problemlos von "Unicode" sprechen, wenn man den Zeichenvorrat meint, der von beiden Standards beschrieben wird.

                          Lo!

                    3. @@fastix®:

                      nuqneH

                      "Zeichensatz" und "Zeichensatzkodierung" verwenden viele als Synonym

                      Es reden auch viele davon, HTML zu programmieren. Es verwenden auch viele Landesflaggen als Sybole für Sprachen. Es denken auch viele, Sperren im Web würden Kinder vor Missbrauch schützen.

                      Unsinn wird durch Wiederholung nicht richtiger.

                      Qapla'

                      --
                      Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
                      (Mark Twain)
        2. @@fastix®:

          nuqneH

          Manche sind hier wohl nur zu dem Zweck anwesend, echt griechische Korinthen zu kacken.

          Die Unterscheidung zwischen Zeichensatz und Zeichencodierung ist keine Korinthe, sondern essentiell. Eben aus der Nichtbeachtung des Unterschieds entstehen viele Fehler und massenhaft Anfragen hier im Forum.

          Ich empfehle, den in [WHAT-IS-ENCODING] verlinkten Artikel The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) [Spolsky] zu lesen; neben seinem Informationsgehalt ist er auch unterhaltsam geschrieben.

          Qapla'

          --
          Gut sein ist edel. Andere lehren, gut zu sein, ist noch edler. Und einfacher.
          (Mark Twain)
  3. Hello,

    Problem: aus meiner Form möchte ich die verwendeten Zeichen prüfen, allerdings sind eingegebene Umlaute bereits html-isiert: ä zu &auml;

    Was bedeutet das? Aus deiner Form?

    Warum, wieso, wer tut sowas.

    Dein Editor beim Erfassen der Texte?

    Liebe Grüße aus dem schönen Oberharz

    Tom vom Berg

    --
     ☻_
    /▌
    / \ Nur selber lernen macht schlau
    http://bergpost.annerschbarrich.de