WernerK: Welche Kodierung ist das?

Hallo,
stehe vor einem Rätsel.

In eine Textdatei finde ich diese Zeichen

R¸ckseite  = Rückseite
Beh‰lterp = Behälter

Oder im Französichen

magasins installÈs (grande capacitÈ)
TrËs Èpais rechargÈ:

Ich lese diese Textdateien mit PHP (windows 7) ein. Standardmäßig habe ich alles auf UTF-8 aber hier wird mir alles seltsam angezeigt:

Ich habe keine Idee welche Kodierung das sein könnte und wie man die Zeichen richtig darstellen kann?

danke
Gruss
Werner

  1. Hallo,
    stehe vor einem Rätsel.

    Wir ebenfalls!

    In eine Textdatei finde ich diese Zeichen

    woher stammt diese Textdatei? Auf welchem System wurde sie geschrieben? Über welche Quelle beziehst du sie?

    R¸ckseite  = Rückseite
    Beh‰lterp = Behälter

    Oder im Französichen

    magasins installÈs (grande capacitÈ)
    TrËs Èpais rechargÈ:

    der Inhalt dieser ominösen "Textdatei" ist also mehrsprachig?

    Ich lese diese Textdateien mit PHP (windows 7) ein. Standardmäßig habe ich alles auf UTF-8 aber hier wird mir alles seltsam angezeigt:

    was heisst "alles" in diesem Kontext? Was heisst "alles seltsam" in diesem Kontext? Wie genau "liest" du sie ein?

    Bitte zeige uns -sauber formatiert und sinnvoll kommentiert- den PHP-Code. Nur dann kann dir in diesem Forum auch geholfen werden.

    1. Hallo,

      woher stammt diese Textdatei? Auf welchem System wurde sie geschrieben? Über welche Quelle beziehst du sie?

      per Download von einer Webseite. Ist eine Druckerbeschreibungsdatei.

      OK, ich versuche mal von Anfang an.

      <?php
      <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
      ..
      Die Datei wird eingelesen von einem Windows Verzeichnis.

      $fp = fopen( $filename, 'r');
      $string1 = fread($fp, filesize($filename));
      fclose($fp);
      ...

      Dann kommen einige Suchfunktionen mit preg_macht die mir bestimmte  Wörter zurückliefern. Zur Kontrolle zeige ich das dann im Browser and und speichere die Werte dann in einer neuen Datei..

  2. Hello,

    In eine Textdatei finde ich diese Zeichen

    R¸ckseite  = Rückseite
    Beh‰lterp = Behälter

    Oder im Französichen

    magasins installÈs (grande capacitÈ)
    TrËs Èpais rechargÈ:

    Ich lese diese Textdateien mit PHP (windows 7) ein. Standardmäßig habe ich alles auf UTF-8 aber

    Das Einlesen sollte ohne jegliche Interpretaion als binärer Stream erfolgen.
    Erst bei der Ausagabe und Darstellung wird es spannend. Wie gibst Du die Daten denn aus?

    Hast Du die Dateien schon mal mit einem "normalen" Editor angeschaut, bei dem Du selber entscheiden musst/kannst, welche Codierung er zugrunde legen soll?

    Woher stammen die Dateien?
    Kannst Du eine im Original zum Download bereitstellen?

    Liebe Grüße aus dem schönen Oberharz

    Tom vom Berg

    --
     ☻_
    /▌
    / \ Nur selber lernen macht schlau
    http://bergpost.annerschbarrich.de
    1. Hallo,

      Erst bei der Ausagabe und Darstellung wird es spannend. Wie gibst Du die Daten denn aus?

      Ich gebe die Daten einmal im Browser aus, speichere sie aber auch in einer neuen Datei.
      meine PHP Seite ist momentan mit UTF8
      also,<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
      kodiert.
      Das gleiche Phänomen ist aber auch mit ISO.
      <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">

      Hast Du die Dateien schon mal mit einem "normalen" Editor angeschaut, bei dem Du selber entscheiden musst/kannst, welche Codierung er zugrunde legen soll?

      Ja, Notepad++ zeigt die Zeichen auch nicht richtig an und wenn ich die mit Textpad öffne kommt ne Meldung
      Warning file contains characters that does not contain to codepage 1252 (ANSI Lateinisch I)

      Woher stammen die Dateien?

      Das sind Drucker Beschreibungsdateien
      Komischerweise steht am Anfang der Datei:
      *LanguageEncoding: ISOLatin1

      Aber das scheint ja dann nicht zu stimmen.

      Gruss
      Werner

      1. Guten tag,

        meine PHP Seite ist momentan mit UTF8
        also,<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
        kodiert.

        was ist eine PHP-Seite? Welche Kodierung hat die _Datei_ selbst? Auch dies kannst du in Notepad++ prüfen. Du verwechselst HTML-Metaangaben mit Zeichenkodierung.

        Ja, Notepad++ zeigt die Zeichen auch nicht richtig an und wenn ich die mit Textpad öffne kommt ne Meldung
        Warning file contains characters that does not contain to codepage 1252 (ANSI Lateinisch I)

        Ändere die Zeichenkodierung in Notepad++ und prüfe (Menüpunkt Kodierung)

        1. Hallo,

          Ändere die Zeichenkodierung in Notepad++ und prüfe (Menüpunkt Kodierung)

          Hmm, vielleicht stelle ich es auch falsch an. Ich kann im Menüpunkt Kodierung einstellen was ich will, speichern und wieder öffnen die Zeichen sind immer gleich.

          Gruss
          Wernen

          1. Hello,

            Hallo,

            Ändere die Zeichenkodierung in Notepad++ und prüfe (Menüpunkt Kodierung)

            Hmm, vielleicht stelle ich es auch falsch an. Ich kann im Menüpunkt Kodierung einstellen was ich will, speichern und wieder öffnen die Zeichen sind immer gleich.

            siehe [libk:http://forum.de.selfhtml.org/my/?t=209869&m=1428521]

            Liebe Grüße aus dem schönen Oberharz

            Tom vom Berg

            --
             ☻_
            /▌
            / \ Nur selber lernen macht schlau
            http://bergpost.annerschbarrich.de
            1. Hallo,

              ich habe mal versucht die Datei zum Download bereitzustellen
              Hoffe es klappt

              http://www.file-upload.net/download-4262033/xrx7655--German.ppd.html

              Die Französiche Datei:
              http://www.file-upload.net/download-4262039/xrx7655French.ppd.html

              Vielleicht seht ihr mehr daraus,

              Gruss
              Werner

              1. Tach,

                http://www.file-upload.net/download-4262033/xrx7655--German.ppd.html

                die Datei ist defekt. Ich kann nicht nachstellen, welche Umkodierungen dazu geführt haben, aber es war wohl mehr als eine. Leider gibt es auf der Seite von Xerox auch keine aktuellere Version.

                mfg
                Woodfighter

                1. Hallo Jens,

                  danke für deine Mühe.
                  Ja ich habe auch schon auf der Xerox Seite im Treiber Download gesucht. Es gibt dort ein "Generisches PPD" das angeblich für Win XP, Server 2008 und andere sein soll. Aber selbst wenn ich den original Treiber mit diesem PPD installiere, sind die Zeichen in Windows falsch.

                  Gruss
                  Werner

            2. Hallo Tom,

              also ich bin jetzt im Notepad++ sämtlich Westeuropäische und Mitteleuropäische Kodierungen durchgegangen. In keiner werden mir die Umlaute richtig angezeigt. Bin ratlos.

              Gruss
              Werner

              1. Hello,

                also ich bin jetzt im Notepad++ sämtlich Westeuropäische und Mitteleuropäische Kodierungen durchgegangen. In keiner werden mir die Umlaute richtig angezeigt. Bin ratlos.

                Ich kann dir leider nicht weiterhelfen, da der Download der Datei eine schmutzige *.EXE anbietet. Darauf habe ich keine Lust. Such Dir bitte eine andere Möglichkeit, die Originaldatei bereitzustellen.

                Liebe Grüße aus dem schönen Oberharz

                Tom vom Berg

                --
                 ☻_
                /▌
                / \ Nur selber lernen macht schlau
                http://bergpost.annerschbarrich.de
                1. Hallo Tom,

                  das tut mir leid das wollte ich nicht. Ich habe einfach mal gegoogelt und bin auch diesen Anbeiter gestossen.
                  Ich suche mal nach anderen Möglichkeiten. Ich habe leider keinen eigenen Server.

                  Gruss
                  Werner

                  1. Om nah hoo pez nyeetz, WernerK!

                    Ich suche mal nach anderen Möglichkeiten.

                    versende die Datei als Mail an mich.

                    Matthias

                    --
                    1/z ist kein Blatt Papier.

                    1. besagte Datei (deutsch), wird von (meinem) FF als Text angezeigt, ist nach Avira virenfrei

                      Matthias

                      --
                      1/z ist kein Blatt Papier.

      2. Guten Tag,

        Das sind Drucker Beschreibungsdateien
        Komischerweise steht am Anfang der Datei:
        *LanguageEncoding: ISOLatin1

        Was in der Datei steht, ist grundsätzlich erstmal irrelevant. Du liest einen Datenstrom ein, der aus einer Reihe von Bytes besteht. Die Kodierung wird in diesem Bytestrom nicht explizit angegeben. Die musst du selber herausfinden. Eine Thematik, die nicht trivial ist.

      3. Hello,

        Hast Du die Dateien schon mal mit einem "normalen" Editor angeschaut, bei dem Du selber entscheiden musst/kannst, welche Codierung er zugrunde legen soll?

        Ja, Notepad++ zeigt die Zeichen auch nicht richtig an und wenn ich die mit Textpad öffne kommt ne Meldung
        Warning file contains characters that does not contain to codepage 1252 (ANSI Lateinisch I)

        Du musst erst den Editor starten, dann die Codierung wählen und dann erst die Datei öffnen, bzw. mit dem gestarteten Editor den Öffnungsdialog beginnen und darin die Codierung vorgeben.

        Mit einem Doppelklick auf die Datei kommst Du i.d.R. nicht mehr dazu.

        Liebe Grüße aus dem schönen Oberharz

        Tom vom Berg

        --
         ☻_
        /▌
        / \ Nur selber lernen macht schlau
        http://bergpost.annerschbarrich.de