Hallo
Kannst du bitte einen dieser Blöcke direkt nach der Extraktion aber noch vor der Weiterverarbeitung durch
urlencode
schicken und hier die Ausgabe posten? Damit sollten wir eher zu den relevanten Teilen vorstoßen.Hier habe ich es so gemacht, wie Du vorschlägst - zufällig ist es auch wieder ein Text mit den ominösen Anführungszeichen:
url: Die+Stadtverwaltung+hat+die+Baugenehmigung+f%C3%83%C2%BCr+das+geplante+Gro%C3%83%C2%9Fbordell …
So, da z.B. das „ü“ im Wort „für“ in zwei Bytes (%C3%83
und %C2%BC
) kodiert wurde, konstatieren wir, dass der Text bei dir UTF-8-kodiert ankommt.
Ausgegeben wird das bei mir mit utf8_decode:
Die Stadtverwaltung hat die Baugenehmigung für das geplante Großbordell …
Ohne utf8_decode:
Die Stadtverwaltung hat die Baugenehmigung für das geplante GroÃbordell …
Das bestätigt die Vermutung einiger, dass hier irgendwo auf deiner Seite etwas schief läuft. Die Seite wird offensichtlich ISO-8859-1- statt UTF-8-kodiert ausgeliefert, sonst wäre der mit utf8_decode
behandelte Text verstümmelt und der UTF-8-kodierte Text nicht.
Deshalb noch ein paar Fragen?
- Ist dein PHP-Skript selbst UTF-8-kodiert?
- Hast du schon mal nach dem Wert für
default_charset
in der Ausgabe der Funktionphp_info
geschaut? - Ist der Quelltext, den du hier gezeigt hast, vollständig oder sind da Teile, z.B. mit Stringfunktionen, die du hier weggelassen hast?
- Hast du in der PHP-Dokumentation für die von dir benutzten Funktionen nach eventuell vorhandenen Parametern für die Zeichenkodierung geschaut?
Tschö, Auge
Es schimmerte ein Licht am Ende des Tunnels und es stammte von einem Flammenwerfer.
Terry Pratchett, „Gevatter Tod“