Webseite teilweise einlesen von Felix Riesterer, 01.03.2007 22:03

Webseite teilweise einlesen

Felix Riesterer Homepage des Autors 01.03.2007 22:03

Lieber Tom,

Jau, abr eben für XML. Ich habe mal versucht, die vorhandenen Klassen für das HTML-Parsing zu verwenden, aber leider keinen Erfolg gehabt.

Es muss da aber inzwischen umfangreiche Entwicklungen geben, denn die Spam-Bots werden schließlich immer besser. Und die Jungs habe das bestimmt auch nicht alles alleine ersonnen, sondern auf fertige Vorentwicklungen zurückgegriffen.

was hindert Dich daran, den HTML-Code in seiner Syntax XML-fähig zu machen und ihn danach zu parsen? Unser OP wollte eine Tabelle haben. Also holt man sich den HTML-Code, "löst" die Tabelle heraus, bastelt sich eine passende DTD für die Tabelle (man sieht ja auf der Seite, welche Bestandteile zum Einsatz kommen und welche nicht), ergänzt eventuell fehlende End-Tags, stellt sicher, dass alle Attributwerte in doppelten Anführungszeichen stehen und die Tags alle schön klein geschrieben sind - fertig für's Parsen!

Liebe Grüße aus Ellwangen,

Felix Riesterer.

--
ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Felix Riesterer: Webseite teilweise einlesen

Beitrag lesen

Webseite teilweise einlesen

Webseite teilweise einlesen