Sascha Nehls: Regulärer Ausdruck um HTML zu filtern

Beitrag lesen

Mittels dem Modul LWP::Simple lese ich den Inhalt einer Website (ich möchte letztendlich eine Fussballtabelle aus einer Website herausfilten), jedoch bekomme ich nicht den Inhalt des Bodys herausgelesen, also alles was zwischen <body ...> und </body> steht. Das Problem hierbei ist, dass in dem einleitenden Body-Tag viele Atribute stehe. Ich nutze den regulären Ausdruck .* dafür, aber es wird nichts zurückgeliefert?!

________
#!/usr/bin/perl -w
use strict;
use LWP::Simple;
my $html;

$html = get ("http://www.google.de");
$html =~ m/<body.*>(.*)</body>/si;  # Hier ist der Fehler versteckt

print "Content-type: text/html\n\n";
print "$1";
_________