seth: Regex: bestimmte Links aus Quellcode extrahieren

Beitrag lesen

gudn tach!

vorab:
ich kenne den regexp-funktionumfang und die syntax von jedit nicht. ich kann dir bloss sage, wie ich das problem loesen wuerde...

Ich möchte aus dem HTML Quellcode einer Seite ein paar Links extrahieren, indem ich alle Zeichen außer den den Links lösche.

in unix (oder in einem modifizierten windows) im cli ginge das z.b. so:

grep -oP 'http://seite[^"\n ]*' test.dat

der parameter o steht fuer "gib alles zurueck, was gematcht wird, aber nicht immer die komplette zeile."

P steht dafuer, dass perl-regexp-syntax verwendet wird.

der regexp
  http://seite[^"\n ]*
matcht "http://seite" gefolgt von beliebig vielen (dafuer ist "*") zeichen aus der zeichenklasse [^"\n ], also "alles, was weder doppeltes anfuehrungszeichen noch leerzeichen noch zeilenumbruch ist".

test.dat ist hier die zu durchsuchende datei.

fuer windows kannst du grep z.b. auf http://gnuwin32.sourceforge.net/ runterladen.

wenn jedit ein guter texteditor ist, laesst er es zu, externe scripts einzubinden. falls er das nicht zulaesst, empfehle ich den umstieg.
ich nutze vim, weil der eine aehnliche regexp-syntax wie perl hat und (zurzeit) sogar noch mehr kann.

prost
seth