Regex: bestimmte Links aus Quellcode extrahieren von seth, 21.09.2007 10:26

Regex: bestimmte Links aus Quellcode extrahieren

seth Homepage des Autors 21.09.2007 10:26

programmiertechnik

gudn tach!

vorab:
ich kenne den regexp-funktionumfang und die syntax von jedit nicht. ich kann dir bloss sage, wie ich das problem loesen wuerde...

Ich möchte aus dem HTML Quellcode einer Seite ein paar Links extrahieren, indem ich alle Zeichen außer den den Links lösche.

in unix (oder in einem modifizierten windows) im cli ginge das z.b. so:

grep -oP 'http://seite[^"\n ]*' test.dat

der parameter o steht fuer "gib alles zurueck, was gematcht wird, aber nicht immer die komplette zeile."

P steht dafuer, dass perl-regexp-syntax verwendet wird.

der regexp
http://seite[^"\n ]*
matcht "http://seite" gefolgt von beliebig vielen (dafuer ist "*") zeichen aus der zeichenklasse [^"\n ], also "alles, was weder doppeltes anfuehrungszeichen noch leerzeichen noch zeilenumbruch ist".

test.dat ist hier die zu durchsuchende datei.

fuer windows kannst du grep z.b. auf http://gnuwin32.sourceforge.net/ runterladen.

wenn jedit ein guter texteditor ist, laesst er es zu, externe scripts einzubinden. falls er das nicht zulaesst, empfehle ich den umstieg.
ich nutze vim, weil der eine aehnliche regexp-syntax wie perl hat und (zurzeit) sogar noch mehr kann.

prost
seth

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

seth: Regex: bestimmte Links aus Quellcode extrahieren

Beitrag lesen

Regex: bestimmte Links aus Quellcode extrahieren

Regex: bestimmte Links aus Quellcode extrahieren

Falscher Thread