Problem beim Crawling Seiten mit Parameter ?parameter=etwas von andi, 15.02.2006 14:22

Problem beim Crawling Seiten mit Parameter ?parameter=etwas

andi 15.02.2006 14:22

perl

Hallo an allen,

Ich habe ein Crawler in perl geschrieben der das LWP modul zum Crawler benutzt.
Hier die Subroutine die den Robot initialisiert:

sub init_robot {
  use LWP::RobotUA;
  $robot = LWP::UserAgent->new();
  $robot->delay($delay/60); # "/60" to do seconds->minutes
  $robot->timeout($timeout);
  $robot->requests_redirectable([]);
    # don't follow any sort of redirects
  $robot->protocols_allowed(['http']);  # disabling all others
   return;
}

und ich erlaube nur seiten die "text/html" sind zu crawlen
Hier ein fragment:

if($response->content_type eq 'text/html') {
       extract_links_from_response($response);
    } else {
  }
  return;
}

die Links werden mit dem Modul HTML::TokeParser extrahiert.

hier der Fragment:

sub extract_links_from_response {
my $response = $_[0];

my $base = URI->new( $response->base )->canonical;
# "canonical" returns it in the one "official" tidy form

my $stream = HTML::TokeParser->new( $response->content_ref );
my $page_url = URI->new( $response->request->uri );

my($tag, $link_url);
  while( $tag = $stream->get_tag('a')) {
    next unless defined($link_url = $tag->[1]{'href'});
    next if $link_url =~ m/\s/; # If it's got whitespace, it's a bad URL.
    next unless length $link_url; # sanity check!

$link_url = URI->new_abs($link_url, $base)->canonical;
next unless $link_url->scheme eq 'http'; # sanity

$link_url->fragment(undef); # chop off any "#foo" part
    note_link_to($page_url => $link_url)
      unless $link_url->eq($page_url); # Don't note links to itself!
      my $anchor_text = $stream->get_text('/a');
      }

return;
}

Nun habe ich das problem das URLs die ein Parameter in der URL haben nicht gefunden und somit nicht gecrawled werden.
Bsp: http://www.candidato.de/stelle.phtml?id=109
oder php Seiten: http://www.tarox.de/jobs/index.php?cat=jobs&job_id=1

Zum Beispiel wird die Seite http://www.tarox.de/jobs/index.php
gefunden aber sobald parameter anfangen wird nichts mehr gefunden.
Beim html seiten ohne parametern funktioniert alles problemlos.

Ich weiss es leider nicht, was ich falsch gemacht habe?
gibt es tricks ewtl. module dafür, dass mann die Seiten mit parametern finden und Crawlen kann? Ich dachte solche Seiten würden auch ganz normal gefunden werden müssen, die sind ja nicht dynamisch erzeugt und verwenden ja kein SessionID usw...

vielen Dank für eure Hilfe, bin aber völlig verzweifelt

Gruss, Andi

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

andi: Problem beim Crawling Seiten mit Parameter ?parameter=etwas

Beitrag lesen

Problem beim Crawling Seiten mit Parameter ?parameter=etwas

Problem beim Crawling Seiten mit Parameter ?parameter=etwas