Lieber Tom,
Jau, abr eben für XML. Ich habe mal versucht, die vorhandenen Klassen für das HTML-Parsing zu verwenden, aber leider keinen Erfolg gehabt.
Es muss da aber inzwischen umfangreiche Entwicklungen geben, denn die Spam-Bots werden schließlich immer besser. Und die Jungs habe das bestimmt auch nicht alles alleine ersonnen, sondern auf fertige Vorentwicklungen zurückgegriffen.
was hindert Dich daran, den HTML-Code in seiner Syntax XML-fähig zu machen und ihn danach zu parsen? Unser OP wollte eine Tabelle haben. Also holt man sich den HTML-Code, "löst" die Tabelle heraus, bastelt sich eine passende DTD für die Tabelle (man sieht ja auf der Seite, welche Bestandteile zum Einsatz kommen und welche nicht), ergänzt eventuell fehlende End-Tags, stellt sicher, dass alle Attributwerte in doppelten Anführungszeichen stehen und die Tags alle schön klein geschrieben sind - fertig für's Parsen!
Liebe Grüße aus Ellwangen,
Felix Riesterer.
ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)