Jörg Peschke: Wie speichert man eine multisprachige Web-Seite in utf8-Format?

Beitrag lesen

Hallo,
So weit ich das sehe, setzt Deine Lösung voraus, dass das gelieferte Dokument bereits als UTF8 ankommt:

$PageString = decode_utf8( $PageString );

Das ist aber nicht zwingend der Fall, sondern hängt von dem Webserver ab, der die chinesische Seite ausliefert.
Du müsstest also den Content-Type des Webservers, den Du mit LWP:UserAgent ansurfst, auslesen (müsste irgendwo in der LWP-API stehen, wie das geht), dann das gelieferte Dokument basierend auf diesem Content-Type dekodieren und dann wieder in UTF8 enkodiert abspeichern.

Viele Grüße,
Jörg