Ziel von a href auslesen (regexp?)
Jonas
- perl
0 Matthias0 Struppi0 Patrick Canterino
Hallo
Ich bin gerade etwas mit dem Auslesen von html dateien beschäftigt. Nun habe ich das Problem, dass ich von einer Zeile Code nur den inhalt von <a href=" haben möchte...
Also aus der Zeile:
<td align="left"<a href="http://irgendwo.rigendwas/irgendwer" class="toplink">Titel</a><br>....
Sollte ich nur noch http://irgendwo.rigendwas/irgendwer haben.
Ich habe mal mit RegExp angefangen zu experimentieren.. Bin aber irgendwie wohl noch zu wenig routiniert mit diesem Thema. (Immerhin dass sämtlicher html code verschwindet, das habe ich schon geschafft ;))
Ich hoffe, es kann mit jemand kurz die richtige Programmzeile durchgeben.
Gruss und Dank
Jonas
<td align="left"<a href="http://irgendwo.rigendwas/irgendwer" class="toplink">Titel</a><br>....
hallo ich hab zwar nix an deinem problem verstanden wenn ich ehrlich bin, aber ich hab nen fehler in deinem code gesehen: hinter "left" muss ein ">"
also <td align="left"><a href="http://irgendwo.rigendwas/irgendwer" class="toplink">Titel</a><br>....
hilft das?
Also aus der Zeile:
<td align="left"<a href="http://irgendwo.rigendwas/irgendwer" class="toplink">Titel</a><br>....Sollte ich nur noch http://irgendwo.rigendwas/irgendwer haben.
also mal abgesehen von dem gravierenden HTML Fehler, du suchst den String der hinter href=" bis zum nächsten vorkommen eines " steht oder alternativ alle Zeichen die kein " sind.
das sollte doch nicht so schwer sein http://de.selfhtml.org/cgiperl/sprache/regexpr.htm (zumindest nicht schwerer als alle HTML Tags zu entfernen)
Struppi.
Also aus der Zeile:
<td align="left"<a href="http://irgendwo.rigendwas/irgendwer" class="toplink">Titel</a><br>....Sollte ich nur noch http://irgendwo.rigendwas/irgendwer haben.
also mal abgesehen von dem gravierenden HTML Fehler, du suchst den String der hinter href=" bis zum nächsten vorkommen eines " steht oder alternativ alle Zeichen die kein " sind.
das sollte doch nicht so schwer sein http://de.selfhtml.org/cgiperl/sprache/regexpr.htm (zumindest nicht schwerer als alle HTML Tags zu entfernen)Struppi.
Die "gravierenden HTML-Fehler" sind einfach Tipfehler. Immerhin wollte ich nicht den ganzen Code posten und habe einfach stellvertrenden was in der Art gemacht.
Irgendwie habe ich genau das versucht, aus irgend einem Grund tut mein Code jedoch nicht korrekt und ich bekomme immer die komplette Linie zurück...
Irgendwie habe ich genau das versucht, aus irgend einem Grund tut mein Code jedoch nicht korrekt und ich bekomme immer die komplette Linie zurück...
Dann ist die RegExp wohl nicht korrekt.
Struppi.
Hallo Jonas,
vielleicht bringt dir das Modul HTML::LinkExtor ja was.
Viele Grüße
Patrick Canterino