ChrisB: HTML formatierten Text kürzen

Beitrag lesen

Hi,

Aber wenn man korrektes XHTML voraussetzen kann, sollte es eigenlich nicht zu aufwändig sein einen eigenen Parser zu schreiben, der den Text zeichenweise analysiert und die reinen Textzeichen zählt. Dabei kann man sich auch die Struktur (also die noch offenen Tags) auf einem Stack speichern und am ende dann korrekt schließen.

Dann kann man auch gleich einen fertigen Parser nehmen, und sich damit einen DOM-Baum erstellen lassen.

Den durchlaeuft man dann rekursiv, und addiert dabei die Laenge der Inhalte auftretender Textknoten. Anschliessend kann man dann ab der Stelle, wo man die Maximallaenge erreicht hat, wieder "hoch" klettern, und dabei den "Rest", nachfolgende Knoten auf der jeweiligen Ebene, verwerfen.

MfG ChrisB

--
„This is the author's opinion, not necessarily that of Starbucks.“