Dr.Colossos: Website Crawler [revisited]

Beitrag lesen

Hi,

wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

Um's auf den Punkt zu bringen, es handelt sich um die Job-Plattform http://www.job-world.de/

Deren robots.txt sieht so aus:

robots.txt zu www.jobworld.de

User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-perl/jobRegio
Disallow: /cgi-perl/select

Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]

Nun frag ich mich, darf ich die Ergebnisseite auslesen?

Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?

Danke sehr!