Korrektur meines vorherigen Postings
bearbeitet von
Hallo
> > Kannst du bitte einen dieser Blöcke *direkt* nach der Extraktion aber noch *vor der Weiterverarbeitung* durch `urlencode` schicken und hier die Ausgabe posten? Damit sollten wir eher zu den relevanten Teilen vorstoßen.
> >
> Hier habe ich es so gemacht, wie Du vorschlägst - zufällig ist es auch wieder ein Text mit den ominösen Anführungszeichen:
>
> ~~~
> url: Die+Stadtverwaltung+hat+die+Baugenehmigung+f%C3%83%C2%BCr+das+geplante+Gro%C3%83%C2%9Fbordell …
> ~~~
So, da z.B. das „ü“ im Wort „für“ als zwei Zeichen (`%C3%83` und `%C2%BC`) kodiert wurde, konstatieren wir, dass der Text bei dir UTF-8-kodiert **ankommt**.
> Ausgegeben wird das bei mir mit utf8_decode:
> > Die Stadtverwaltung hat die Baugenehmigung für das geplante Großbordell …
>
> Ohne utf8_decode:
> > Die Stadtverwaltung hat die Baugenehmigung für das geplante GroÃbordell …
Das bestätigt die Vermutung einiger, dass hier ***irgendwo** auf deiner Seite* etwas schief läuft. Die Seite wird offensichtlich ISO-8859-1- statt UTF-8-kodiert ausgeliefert, sonst wäre der mit `utf8_decode` behandelte Text verstümmelt und der UTF-8-kodierte Text nicht.
Deshalb noch ein paar Fragen?
1. Ist dein PHP-Skript selbst UTF-8-kodiert?
2. Hast du schon mal nach dem Wert für `default_charset` in der Ausgabe der Funktion `php_info` geschaut?
3. Ist der Quelltext, den du hier gezeigt hast, vollständig oder sind da Teile, z.B. mit Stringfunktionen, die du *hier* weggelassen hast?
4. Hast du in der PHP-Dokumentation für die von dir benutzten Funktionen nach eventuell vorhandenen Parametern für die Zeichenkodierung geschaut?
Tschö, Auge
--
Es schimmerte ein Licht am Ende des Tunnels und es stammte von einem Flammenwerfer.
Terry Pratchett, „Gevatter Tod“