Felix Riesterer: Element und Kinder aus XHTML extrahieren und zu XML

Beitrag lesen

Lieber Matze,

Meine Idee, basierend auf deinen regex ist jetzt folgende:
Ich lösche alle Tags über und inkl. <body>.
Also <!DOCTYPE..., <html>, <meta>, <style>, <script>, <title>, <head>, <link>, <body>.

wenn Du <head> mitsamt inhalt löschst, dann sparst Du Dir 'ne Menge Schreibarbeit und Rechenleistung.

Der Inhalt der Tags bleibt stehen.

Von allen oben genannten Elementen? Dann steht da Titel und eventuelles CSS oder JavaScript!

Somit hab ich nur noch den Inhalt von <body> umgeben von Text. Oder?

Kommt auf Deine Muster und ihre Ersetzungen an!

Dann kodier ich das Ganze in UTF-8 und kleb vorn einfach ein <xml... ran.

Kannst Du dafür garantieren, dass der Inhalt im <body> valides XML ist?

Zack, schon müsste ich einen schönen DOM-Baum haben der XML-Verwertbar ist. Oder? Hab ich was vergessen?

Außer der Validitätsprüfung nichts... vermute ich.

Liebe Grüße,

Felix Riesterer.

--
ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)