Hi,
wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.
Um's auf den Punkt zu bringen, es handelt sich um die Job-Plattform http://www.job-world.de/
Deren robots.txt sieht so aus:
robots.txt zu www.jobworld.de
User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-perl/jobRegio
Disallow: /cgi-perl/select
Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]
Nun frag ich mich, darf ich die Ergebnisseite auslesen?
Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?
Danke sehr!