HTML Scanner von fastix®, 07.07.2005 21:20

HTML Scanner

fastix® Homepage des Autors 07.07.2005 21:20

java

−2 Informationen zu den Bewertungsregeln

Moin!

Hallo,

ich bin mir nicht sicher ob mein Thema in dieses Forum passt, aber ich versuch es einfach mal.

Ich bin noch ein Java-Anfänger und soll mit einem Java Programm bestimmte Daten (Textstellen) aus einem HTML-File raussuchen.

Macht nichts. Ich habe von Java gar keine Ahnung, aber schon ein paar Seminare zu dem Thema gehalten. Sind alle sehr gut bewertet worden...

Jeoch hab ich keine Ahnung wie ich ein HTML-Dokument was zig Zeilen lang ist struktieriert durchsuchen soll.

Die Zeilen kannst Du hier völlig unbeachtet lassen. Genau genommen macht das ein Webbrowser außerhalb von <pre>..</pre> auch.

Es gibt ja schon diverse HTML-Scanner, aber die scheinen auch alle nicht zu funktionieren.

Nun ja. Viele Browser funktionieren mit vielen HTML-Quelltexten auch nicht. Das hängt nicht zuletzt vom HTML, also dessen Validität ab.

Nun. Einfach alles innerhalb von < > und diese selbst auch ignorieren/Löschen.

Am einfachsten dürfte es sein, das Objekt String Stelle für Stelle durchzugehen (Es ähnelt einem Array) und sobald man auf ein "<" trifft dieses und die folgenden Zeichen zu ignorieren und sobald man auf ein ">" ab dem nächsten Zeichen jeweils dieses an einen neuen String anzuhängen.

Zuletzt müssen noch die sogenannten Entities & (&) < (<) " ("), ö (ö) e.t.c. in ihre ursprüngliche texttuelle Bedeutung verwandelt werden. Dafür gibts Tabellen. Vielleicht willst Du auch Zeilenumbrüche erst mal rausschmeissen und nach oder vor jedem Tag (<>)einen einfügen.
Vieleicht willst Du auch Aufzählungen und Listen entsprechend markieren...

Das Stichwort ist "regex" oder regular expressions.

Ich kann mir aber nicht vorstellen, dass es dafür nicht schon fertige Klassen gibt.

MFFG (Mit freundlich- friedfertigem Grinsen)

fastix®

--
Als Freiberufler bin ich immer auf der Suche nach Aufträgen: Schulungen, Development. Auch für seriöse Agenturen.

Beitrag melden

−2 Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

fastix®: HTML Scanner

Beitrag lesen

HTML Scanner

HTML Scanner

Kleiner Test

Alles OK

Touché!

HTML Scanner URI geht nicht