Matze: Element und Kinder aus XHTML extrahieren und zu XML

Beitrag lesen

Hallo Felix, hallo DiBo33,

das setzt voraus, dass nur eine einzige <ul> auf der Seite existiert (..)

Das habe ich auch gerade bemerkt.
Schade, beim ersten Test mit 1 <ul> sah es so schön einfach aus.

Meine Idee, basierend auf deinen regex ist jetzt folgende:
Ich lösche alle Tags über und inkl. <body>.
Also <!DOCTYPE..., <html>, <meta>, <style>, <script>, <title>, <head>, <link>, <body>.
Hab ich was vergessen?

Der Inhalt der Tags bleibt stehen.

Somit hab ich nur noch den Inhalt von <body> umgeben von Text. Oder?
Dann kodier ich das Ganze in UTF-8 und kleb vorn einfach ein <xml... ran.

Zack, schon müsste ich einen schönen DOM-Baum haben der XML-Verwertbar ist. Oder? Hab ich was vergessen?

Danke und Grüße, Matze