ChrisB: Charset und HTML-Tags

Beitrag lesen

Hi,

In der Datenbank befinden sich mehrere Beiträge, die unterschiedliche Kodierung haben (UTF-8 usw.).

Und wie wurde da bisher unterschieden, was in welcher Kodierung vorliegt?

Außerdem beinhalten die Texte HTML-Tags, die zum Teil "zerschossen" sind. [...]
1.) Wie filtere ich die Tags (außer o.g.) ästhetisch raus?

Vielleicht erst mal mit HTML Tidy das „zerschossene“ reparieren lassen - danach dürfte es vermutlich leichter sein, gezielt Tags zu entfernen.

2.) Wie konvertiere ich die Inhalte in ein UTF-8 Format richtig, auch wenn die Ausgangstexte mal UTF-8, mal Westeuropäisch und mal  anderes kodiert sind?

iconv, mb_convert_encoding/mb_detect_encoding.

MfG ChrisB

--
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?