fastix®: HTML Scanner

Beitrag lesen

Moin!

Hallo,

ich bin mir nicht sicher ob mein Thema in dieses Forum passt, aber ich versuch es einfach mal.

Ich bin noch ein Java-Anfänger und soll mit einem Java Programm bestimmte Daten (Textstellen) aus einem HTML-File raussuchen.

Macht nichts. Ich habe von Java gar keine Ahnung, aber schon ein paar Seminare zu dem Thema gehalten. Sind alle sehr gut bewertet worden...

Jeoch hab ich keine Ahnung wie ich ein HTML-Dokument was zig Zeilen lang ist struktieriert durchsuchen soll.

Die Zeilen kannst Du hier völlig unbeachtet lassen. Genau genommen macht das ein Webbrowser außerhalb von <pre>..</pre> auch.

Es gibt ja schon diverse HTML-Scanner, aber die scheinen auch alle nicht zu funktionieren.

Nun ja. Viele Browser funktionieren mit vielen HTML-Quelltexten auch nicht. Das hängt nicht zuletzt vom HTML, also dessen Validität ab.

Nun. Einfach alles innerhalb von < > und diese selbst auch ignorieren/Löschen.

Am einfachsten dürfte es sein, das Objekt String Stelle für Stelle durchzugehen (Es ähnelt einem Array) und sobald man auf ein "<" trifft dieses und die folgenden Zeichen zu ignorieren und sobald man auf ein ">" ab dem nächsten Zeichen jeweils dieses an einen neuen String anzuhängen.

Zuletzt müssen noch die sogenannten Entities &amp; (&) &lt; (<) &quot; ("), &ouml; (ö)  e.t.c. in ihre ursprüngliche texttuelle Bedeutung verwandelt werden. Dafür gibts Tabellen. Vielleicht willst Du auch Zeilenumbrüche erst mal rausschmeissen und nach oder vor jedem Tag (<>)einen einfügen.
Vieleicht willst Du auch Aufzählungen und Listen entsprechend markieren...

Das Stichwort ist "regex" oder regular expressions.

Ich kann mir aber nicht vorstellen, dass es dafür nicht schon fertige Klassen gibt.

MFFG (Mit freundlich- friedfertigem Grinsen)

fastix®

--
Als Freiberufler bin ich immer auf der Suche nach Aufträgen: Schulungen, Development. Auch  für seriöse Agenturen.