AllesMeins: Codierung zurecht biegen

Hiho,

ich hab hier eine Datei die ich gerne mit PHp weiterverarbeiten möchte. Nun scheint da irgendetwa smit der codierung von Sonderzeichen falsch zulaufen. Jedenfalls ist das Zeichen ä in der Datei ein "ä", das ü ein "ü" usw. Da steht dann also so etwas wie "kann für immer". Was ist das für eine Codierung? Und kann ich das mit PHP möglichst einfach zurecht biegen damit ich mit den Daten weiterarbeiten kann?
Oder kann ich einfach die drei äöü ersetzten? Oder wie viele Sonderzeichen gibt es noch die mir dort unangenehme Überraschungen verursachen könnten?

Marc

  1. Hallo,

    Also ich kann dir nicht genau sagen woran es liegt, tippe aber einmal darauf, dass der (Linux?)-Server mit den deutschen Umlauten nicht umzugehen vermag.
    Wenn du die deutschen Umlaute maskieren willst schau dir die Funktion htmlentities einmal an.

    Gruß,
    Severin

    --
    They that can give up essential liberty to obtain a little temporary safty deserve neither liberty nor safty.
    -- Benjamin Franklin
  2. 你好 AllesMeins,

    ich hab hier eine Datei die ich gerne mit PHp weiterverarbeiten möchte.
    Nun scheint da irgendetwa smit der codierung von Sonderzeichen falsch
    zulaufen. Jedenfalls ist das Zeichen ä in der Datei ein "ä", das ü
    ein "ü" usw. Da steht dann also so etwas wie "kann für immer". Was
    ist das für eine Codierung?

    Das ist wohl UTF-8.

    Und kann ich das mit PHP möglichst einfach zurecht biegen damit ich mit
    den Daten weiterarbeiten kann?

    http://php.net/utf8_decode

    再见,
     CK

    --
    Descartes sagte: 'Ich denke, also bin ich.' Ich hingegen sage: 'Ich denke nicht, also bin ich.'
    http://wwwtech.de/
  3. Jedenfalls ist das Zeichen ä in der Datei ein "ä", das ü ein "ü" usw. Da steht dann also so etwas wie "kann für immer". Was ist das für eine Codierung?

    utf-8. Kommt diese Frage jetzt alle zwei Tage?

    Und kann ich das mit PHP möglichst einfach zurecht biegen damit ich mit den Daten weiterarbeiten kann?

    utf8_decode(), dabei müsste aber das Eurozeichen und einige andere Zeichen verloren gehen (alles, was windows-1252 von iso-8859-1 unterscheidet).

    Oder wie viele Sonderzeichen gibt es noch die mir dort unangenehme Überraschungen verursachen könnten?

    Theoretisch ungefähr 1,1 Millionen, praktisch vielleicht eher zwischen 20 und 200, je nachdem, in welchen Sprachen und mit welchem Computer der Unicode-Text geschrieben wurde.

    Vielleicht lässt Du die Datei einfach wie sie ist und stellst selber auf Unicode um. Jeder moderne Browser kann mit Unicode umgehen.

  4. Hallo Marc,

    falls du nur einmal diese datei mit php weiterverarbeiten möchtest, kannst du die Datei auch beispielsweise mit Notepade öffnen, und wieder mit "speichern unter" speichern. In dem Dialogfeld steht ganz unten "Codierung" wenn Du die von UTF-8 auf ANSI umstellst müsste es gehen...

    Wenn du die Datei natürlich ständig neu einspielen willst, musst du wohl direkt auf UTF 8 umstellen!
    Viele Grüße
    Christof