Moin,
wenn man sich den Quelltext bspw. dieser Seite ansieht:
http://www.chineseetymology.org/Etymology.aspx?characterInput=妙&submitButton=Analyze+Character
und ganz nach unten scrollt, findet man einige Quadrate. Diese Quadrate sind "eigentlich" chin. Schriftzeichen. Das Forum hat mir schon von sich aus insofern weitergeholfen, dass es sich dabei um "discouraged characters" handelt.
Wenn ich ein solches Quadrat in Outlook-Express kopiere und als Encoding "Westeuropäisch (ISO)" wähle, mir dann (in Outlook) den Quelltext ansehe, wurden die Quadrate in Unicode umgewandelt.
Ich möchte aber diese Datenbank über PHP auslesen, d.h. ich nutze dies hier:
$fe = "http://www.chineseetymology.org/Etymology.aspx?characterInput=$e[11]&submitButton=Analyze+Character";
@ $byte = file($fe);
zerlege dann die eingelesene Seite und extrahiere daraus, was ich brauche (das ist vom Betreiber dieses Lexikons auch abgesegnet).
Mache ich das, wird aus den Quadraten - kurz gesagt - Mist, nämlich jeweils zwei Sonderzeichen (è€) und schon wieder so ein Quadrat.
Jetzt kommt auch schon die Frage:
Ist es denn möglich, das irgendwie zu vermeiden? Und sei es nur so, dass diese beknackten Quadrate unverändert erhalten bleiben? Dann könnte ich sie ja in Outlook schnell umwandeln. Sonst müsste ich Seite für Seite in Outlook kopieren und so weiter..
Weiß jemand Rat?
Schönen Gruß,
Mike