Hi,
In der Datenbank befinden sich mehrere Beiträge, die unterschiedliche Kodierung haben (UTF-8 usw.).
Und wie wurde da bisher unterschieden, was in welcher Kodierung vorliegt?
Außerdem beinhalten die Texte HTML-Tags, die zum Teil "zerschossen" sind. [...]
1.) Wie filtere ich die Tags (außer o.g.) ästhetisch raus?
Vielleicht erst mal mit HTML Tidy das „zerschossene“ reparieren lassen - danach dürfte es vermutlich leichter sein, gezielt Tags zu entfernen.
2.) Wie konvertiere ich die Inhalte in ein UTF-8 Format richtig, auch wenn die Ausgangstexte mal UTF-8, mal Westeuropäisch und mal anderes kodiert sind?
iconv, mb_convert_encoding/mb_detect_encoding.
MfG ChrisB
--
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?
RGB is totally confusing - I mean, at least #C0FFEE should be brown, right?