Alexander, W.: Charset und HTML-Tags

Beitrag lesen

Hallo,

ich arbeite an einem Kundenprojekt (Online-Tagebuch), mit ziemlich vielen Einträgen. Das Projekt wurde aus zwei verschiedenen Projekten (ebenfalls Tagebücher) zusammengeschmolzen. Das eine Projekt ist dabei schon ziemlich alt und -glaube- noch aus PHP3 Zeiten. In der Datenbank befinden sich mehrere Beiträge, die unterschiedliche Kodierung haben (UTF-8 usw.). Außerdem beinhalten die Texte HTML-Tags, die zum Teil "zerschossen" sind.

Der Kunde will nun die Beiträge in PDF-Dateien exportieren lassen und zwar mit ca. 200 Beiträgen pro eine PDF-Datei. Beim Exportieren stoße ich auf unzählige Probleme mit Umlauten und mit den HTML-Tags. Einerseits werden also Umlaute falsch dargestellt, andererseits werden Teile des Textes abgeschnitten, wenn irgendwo ein Tag falsch geschlossen ist.

Ich habe die unnötigen Tags mit "strip_tags" gefiltert.

$description = html_entity_decode(strip_tags($description, '<p><u><b><br><strong><font>'));

Leider, wie oben erwähnt schneidet die Funktion Textteile weg.

Dazu habe ich zwei Fragen:

1.) Wie filtere ich die Tags (außer o.g.) ästhetisch raus?

2.) Wie konvertiere ich die Inhalte in ein UTF-8 Format richtig, auch wenn die Ausgangstexte mal UTF-8, mal Westeuropäisch und mal  anderes kodiert sind?

Gruß
Alexander.