Rolf B: Sonder- wie Satzzeichen werden deformiert dargestellt

Beitrag lesen

Hallo Heiko,

ich habe das Thema nicht genauer verfolgt, aber wenn ich das jetzt sehe, dann arbeitet irgendeine beteiligte Instanz nicht mit Unicode, bekommt aber Unicode-Text und gibt ihn als ISO-8859 Text (also klassische Codepage) aus.

Und diese Instanz musst Du finden.

Alternativ musst Du umcodieren. Deine loadHTMLFile Aufrufe sind beide Blödsinn.

Der erste konvertiert nicht das geladene HTML, sondern nur die URL. Der zweite setzt eine XML-Deklaration vor die URL - das Ergebnis ist eine ungültige URL.

Du müsstest mit file_get_contents den INHALT der Seite laden, diesen Inhalt durch mb_convert_encoding jagen (sofern er denn zu konvertieren ist, das müsstest Du ggf. unter's Mikroskop legen) und das Ergebnis mit loadHTML ins DOMDocument laden.

Mit all den Problemen, die das auslöst. DOMDocument hat nie HTML5 gelernt und rotzt bei HTML5 Konstrukten gern mal Beschwerden in die Konsole.

Ja, richtig, file_get_contents. Der kann auch Downloads, wenn Du ihm eine URL gibst. Falls Du für den Header setzen musst/willst, kannst Du das über einen Stream Context lösen, dazu findest Du Beispiele auf der Dokuseite der Funktion auf php.net.

Rolf

--
sumpsi - posui - obstruxi