Website Crawler [revisited] von Dr.Colossos, 26.01.2009 22:43

Website Crawler [revisited]

Dr.Colossos 26.01.2009 22:43

recht

Hi,

wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

Um's auf den Punkt zu bringen, es handelt sich um die Job-Plattform http://www.job-world.de/

Deren robots.txt sieht so aus:

robots.txt zu www.jobworld.de

User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-perl/jobRegio
Disallow: /cgi-perl/select

Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]

Nun frag ich mich, darf ich die Ergebnisseite auslesen?

Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?

Danke sehr!

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Dr.Colossos: Website Crawler [revisited]

Beitrag lesen