David: Gedownloadete Selfhtml-Dateien werden falsch angezeigt

Hallo,

ich habe das Selfhtml-Archiv von de.selfhtml.org gedownloadet, entpackt und auf meinen oggline laufenden Webserver geschoben, damit ich immer schnell Zugriff darauf habe (http://localhost/selfhtml). Nun ist mir aufgefallen, dass die ganzen Umlaute durch ein "?" ersetzt worden sind, in den Dateien wurden keine Ä und so weiter benutzt. Unter Windows wurde alles einwandfrei dargestellt, doch seit einiger Zeit bin ich auf Ubuntu umgestiegen, dort wird es nicht richtig dargestellt. Der Browser ist der gleiche, mit denen ich die Seite besucht habe, Frirefox 1.5.*
Nun würde ich gern wissen, ob es eine Version gibt, mit den Entities oder ob jemand ein Bashskript hat, dass rekursiv alle Dateien durchsucht und Umlaute durch Entities ersetzt. Am besten wäre es, wenn es keine Binärdateien durchsucht (die Bilder sollen nämlich ganz bleiben *gg*), aber das wäre auch nicht so schlimm, ich könnte die Bilder ja zurückkopieren.

Liebe Grüße,
David

  1. Hallo,

    ich habe das Selfhtml-Archiv von de.selfhtml.org gedownloadet,

    Wie hast du das denn gemacht. Bei mir steht da immer nur „Der früher mögliche, quartalsweise Download des Archivs entfällt.“

    Aber wozu gibt es Spiderzilla ;-)

    entpackt und auf meinen oggline laufenden Webserver geschoben, damit ich immer schnell Zugriff darauf habe (http://localhost/selfhtml). Nun ist mir aufgefallen, dass die ganzen Umlaute durch ein "?" ersetzt worden sind, in den Dateien wurden keine Ä und so weiter benutzt.

    Liegt das vielleicht es deinen Webserver? Welchen Content-type-header schickt der? Evtl. durch eine .htacces-Datei für dieses Verzeichnis ändern.

    Unter Windows wurde alles einwandfrei dargestellt,

    Naja, du hast deinen Webserver ja neu installiert.

    Nun würde ich gern wissen, ob es eine Version gibt, mit den Entities oder ob jemand ein Bashskript hat, dass rekursiv alle Dateien durchsucht und Umlaute durch Entities ersetzt. Am besten wäre es, wenn es keine Binärdateien durchsucht (die Bilder sollen nämlich ganz bleiben *gg*), aber das wäre auch nicht so schlimm, ich könnte die Bilder ja zurückkopieren.

    Weiß nicht, ob „Phase 5“ auch unter Linux läuft. Ansonsten müsste es aber damit gehen. Ein Script habe ich leider nicht.

    mfg. Daniel

  2. Hallo David.

    ich habe das Selfhtml-Archiv von de.selfhtml.org gedownloadet,

    Warum hast du sie nicht „heruntergeladen“?

    entpackt und auf meinen oggline laufenden Webserver geschoben, damit ich immer schnell Zugriff darauf habe (http://localhost/selfhtml). Nun ist mir aufgefallen, dass die ganzen Umlaute durch ein "?" ersetzt worden sind, in den Dateien wurden keine Ä und so weiter benutzt. Unter Windows wurde alles einwandfrei dargestellt, doch seit einiger Zeit bin ich auf Ubuntu umgestiegen, dort wird es nicht richtig dargestellt.

    Welche Angabe zur Kodierung sendet der Server? (Im Firefox in den „Seiteninformationen“ und im Opera im Info-Panel zu finden.)

    Das von dir geschilderte Problem deutet darauf hin, dass der Server „UTF-8“ an den Client sendet, welcher die ausgelieferten Ressourcen dementsprechend dann auch interpretiert.

    Nun würde ich gern wissen, ob es eine Version gibt, mit den Entities oder ob jemand ein Bashskript hat, dass rekursiv alle Dateien durchsucht und Umlaute durch Entities ersetzt.

    Das ist nicht erforderlich. Heutzutage schon gar nicht mehr.

    Am besten wäre es, wenn es keine Binärdateien durchsucht (die Bilder sollen nämlich ganz bleiben *gg*), aber das wäre auch nicht so schlimm, ich könnte die Bilder ja zurückkopieren.

    Die Bash selbst kann hier nicht zwischen Nurtext- und binären Dateien unterscheiden, man könnte sich aber des „file“-Kommandos bedienen.

    Einen schönen Dienstag noch.

    Gruß, Mathias

    --
    ie:% fl:| br:< va:) ls:& fo:) rl:( n4:~ ss:) de:] js:| mo:| zu:)
    debian/rules
    1. Hallo Mathias,

      Welche Angabe zur Kodierung sendet der Server? (Im Firefox in den „Seiteninformationen“ und im Opera im Info-Panel zu finden.)

      Das von dir geschilderte Problem deutet darauf hin, dass der Server „UTF-8“ an den Client sendet, welcher die ausgelieferten Ressourcen dementsprechend dann auch interpretiert.

      Im Firefox steht UTF-8... wie würde sich das denn nun ändern lassen, dass alles wieder "normal" läuft?

      Einen schönen Dienstag noch.

      Gleichfalls :)

      lg
      David

      1. Hallo David.

        Das von dir geschilderte Problem deutet darauf hin, dass der Server „UTF-8“ an den Client sendet, welcher die ausgelieferten Ressourcen dementsprechend dann auch interpretiert.

        Im Firefox steht UTF-8... wie würde sich das denn nun ändern lassen, dass alles wieder "normal" läuft?

        Lokal (.htaccess) sowie global (httpd.conf/apache2.conf) mit Hilfe der Add(Default)Charset-Direktive.

        Einen schönen Dienstag noch.
        Gleichfalls :)

        Danke.

        Gruß, Mathias

        --
        ie:% fl:| br:< va:) ls:& fo:) rl:( n4:~ ss:) de:] js:| mo:| zu:)
        debian/rules
        1. Hallo,

          in meiner apache2.conf steht folgendes

          AddCharset ISO-8859-1  .iso8859-1  .latin1
          AddCharset ISO-8859-2  .iso8859-2  .latin2 .cen
          AddCharset ISO-8859-3  .iso8859-3  .latin3
          AddCharset ISO-8859-4  .iso8859-4  .latin4
          AddCharset ISO-8859-5  .iso8859-5  .latin5 .cyr .iso-ru
          AddCharset ISO-8859-6  .iso8859-6  .latin6 .arb
          AddCharset ISO-8859-7  .iso8859-7  .latin7 .grk
          AddCharset ISO-8859-8  .iso8859-8  .latin8 .heb
          AddCharset ISO-8859-9  .iso8859-9  .latin9 .trk
          AddCharset ISO-2022-JP .iso2022-jp .jis
          AddCharset ISO-2022-KR .iso2022-kr .kis
          AddCharset ISO-2022-CN .iso2022-cn .cis
          AddCharset Big5        .Big5       .big5

          For russian, more than one charset is used (depends on client, mostly):

          AddCharset WINDOWS-1251 .cp-1251   .win-1251
          AddCharset CP866       .cp866
          AddCharset KOI8-r      .koi8-r .koi8-ru
          AddCharset KOI8-ru     .koi8-uk .ua
          AddCharset ISO-10646-UCS-2 .ucs2
          AddCharset ISO-10646-UCS-4 .ucs4
          AddCharset UTF-8       .utf8

          AddCharset GB2312      .gb2312 .gb
          AddCharset utf-7       .utf7
          AddCharset utf-8       .utf8
          AddCharset big5        .big5 .b5
          AddCharset EUC-TW      .euc-tw
          AddCharset EUC-JP      .euc-jp
          AddCharset EUC-KR      .euc-kr
          AddCharset shift_jis   .sjis

          *g* Das ist so viel *gg* Wo solte ich was ändern, damit meine Websites möglichst am besten dargestellt werden?

          Gruß,
          David

          1. Ich war etwas zu voreilig, sry, konnte es dann doch selbst lösen mit

            AddDefaultCharset ISO-8859-1

            und

            sudo /etc/init.d/apache2 reload

            Das zweite natürlich im Terminal *ggg*

            Danke für den Hinweis

            Gruß,
            David

            1. Hallo David,

              Du kannst die Einstellung allerdings auch mit einer .htaccess im Basis-Verzeichnis deiner lokalen SELFHTML-Kopie ändern. Damit vermeidest du auf jeden Fall unerwünschte Nebenwirkungen bei anderen Inhalten auf deinem Webserver.

              Schöne Grüße,

              Johannes