Eddie: Validator-Fehlermeldung wegen komischer Zeichen

Hallo allerseits,

ich bekomme folgende Fehlermeldungen vom Validator:
http://validator.projektmedien.de/check?uri=http%3A%2F%2Fwww.test.umdiewelt.de%2Ftravelogue.php%3Fl%3Dde%26m%3Dp%26t%3D37%26c%3D0+&doctype=Inline
Da geht's um Zeichen, die meine User durch Cut&Paste aus Word mitgebracht haben.
Was kann ich da tun?

Haben diese Zeichen eine HTML-(ISO)-Entsprechung? Wenn ich die habe, dann könnte ich mit PHP zur Laufzeit einfach die gewuenschten Zeichen einsetzen.

Danke fuer Infos,
Eddie

  1. Hi,

    Haben diese Zeichen eine HTML-(ISO)-Entsprechung? Wenn ich die habe, dann könnte ich mit PHP zur Laufzeit einfach die gewuenschten Zeichen einsetzen.

    Die Zeichen 129 bis 159 sind nicht zulässig in SGML (und damit auch nicht in HTML).
    Guck Dir einfach in Word an, was das für Zeichen sein sollen.
    Und dann suchst Du unter http://www.unicode.org/charts/ die entsprechenden Unicode-Zeichen raus.

    Dann ersetzt Du diese Zeichen durch die passenden numerischen Entities...

    cu,
    Andreas

    --
    Der Optimist: Das Glas  ist halbvoll.  - Der Pessimist: Das Glas ist halbleer. - Der Ingenieur: Das Glas ist doppelt so groß wie nötig.
    http://mud-guard.de/? http://www.andreas-waechter.de/ http://www.helpers.de/
    1. Hi,

      Guck Dir einfach in Word an, was das für Zeichen sein sollen.

      hab ich getan. Unter anderem habe ich da

      • den Gedankenstrich - wie er eigentlich vor "wie" stehen SOLLTE.
      • doppelte Anfuehrungszeichen unten
      • doppelte Anfuehrungszeichen oben
        Ehrlich gesagt, dachte ich bisher immer, dass es diese genannten Zeichen in HTML garnicht gibt ...

      Und ich habe keine Ahnung, wie ich im Unicode-Zeichensatz das entsprechende Zeichen finden soll?

      Waere dankbar fuer einen kleinen Hinweis, wie ich mit diesen Tabellen umzugehen habe.

      Eddie

        • den Gedankenstrich - wie er eigentlich vor "wie" stehen SOLLTE.
        • doppelte Anfuehrungszeichen unten
        • doppelte Anfuehrungszeichen oben

        Allgemein werden derart spezielle Zeichen bei Webseiten kaum benutzt.
        Gedankenstrich -> Minus
        jeweilige Anführungszeichen -> "

        Damit sparst du dir ein paar Probleme, selbst wenn der Text darunter etwas leidet.
        Es gibt einfach einige Regeln, die sich nur mit unverhältnissmäßig großem Aufwand korrekt umsetzen lassen.

        dbenzhuser

        1. Hallo,
          ok, dann sehe ich das jetzt etwas klarer.
          Ich biete unter http://www.umdiewelt.de Autoren die Moeglichkeit, Reiseberichte zu verfassen. Ein Freund von mir - seines Zeichens Lektor - liest hin und wieder drueber und sagt mir, was falsch ist. Bindestriche (statt Gedankenstriche) und Anfuehrungszeichen wurden dabei regelmaessig reklamiert, und zwar zu recht.
          Stellt sich die Frage, ob das nicht eine Schwachstelle aktuellen Webdesigns ist?
          Immerhin, der http://www.duden.de macht's richtig. Auf der Startseite werden weiter unten ein paar Gedankenstriche mit – erzeugt.
          Mmmh, Perfektion oder Faulheit? Genie oder Wahnsinn?
          ... nachdenklich, Eddie

      1. Hallo Eddie,

        Guck Dir einfach in Word an, was das für Zeichen sein sollen.
        hab ich getan. Unter anderem habe ich da

        • den Gedankenstrich - wie er eigentlich vor "wie" stehen SOLLTE.
        • doppelte Anfuehrungszeichen unten
        • doppelte Anfuehrungszeichen oben
          Ehrlich gesagt, dachte ich bisher immer, dass es diese genannten Zeichen in HTML garnicht gibt ...

        Sie existieren in Unicode und damit in HTML, wenngleich sie nicht direkt in den gängigen 8-Bit-Kodierungen enthalten sind, du musst sie somit als numerische Zeichenreferenzen oder, sofern möglich, über Entities notieren. Für die oben genannten Zeichen existieren in HTML vordefinierte Entities, eine Liste dieser findest du unter http://selfhtml.teamone.de/html/referenz/zeichen.htm, speziell http://selfhtml.teamone.de/html/referenz/zeichen.htm#benannte_interpunktion.
        Der oben genannte Gedankenstrich wäre demnach als Entity – und als numerische (dezimale) Zeichenreferenz – (wie du sagtest). Das doppelte Anführungszeichen unten wäre „ bzw. „, das oben “ bzw. “. Es empfiehlt sich in der Regel, die Dezimalnotation zu verwenden, da diese auch beispielsweise von Netscape 4 unterstützt wird (zumindest was die obigen Zeichen angeht).
        http://webdesign.crissov.de/Typographie setzt sich generell mit dem Thema auseinander.

        Mathias

        --
        »The Web is the minimal concession to hypertext that a sequence-and-hierarchy chauvinist could possibly make.« (Ted Nelson)
        1. Hi Mathias,

          http://webdesign.crissov.de/Typographie

          cooler Link, da wird sich mein Lektor-Kumpel freuen :-)

          Mir stellt sich jetzt nur noch die Frage, wie meine Ersetzungsfunktion aussehen soll, d.h. WAS soll ich den mit – ersetzen?
          Ich weiß ja nur, wie das Zeichen in Word aussieht, habe aber zu genau diesem Zeichen keine Kennung (außer den Nummern (z.B. 50), die mir der Validator ausgespuckt hat.
          Also:
          str_replace(???, "–", $myText);

          Eine Idee?

          Danke, Eddie

        2. N'Obend

          http://webdesign.crissov.de/Typographie setzt sich generell mit dem Thema auseinander.

          So sinnvoll auch eine korrekte Typographie sein mag, durch den Quatsch, steigt der Aufwand beim Texten enorm, zumal, wenn man fertige Texte übernehmen soll, welche sich rein gar nicht daran halten.

          Ich denke über den Sinn von massenweise verschiedenen Anführungszeichen, horizontalen Strichen, verschiedenbreiten Leerzeichen lässt sich gut streiten.
          Aber solange nur ein Lektor den Unterschied bemerken könnte, reicht mir eine gute Grundgrammatik, der Aufwand lohnt nicht.

          dbenzhuser

    2. Dann ersetzt Du diese Zeichen durch die passenden numerischen Entities...

      Es gibt keine numerischen Entities.

      (Krchchch, </usenetstyle:nitpick>.)

      M.