ChrisB: Website Crawler [revisited]

Beitrag lesen

Hi,

Disallow: /cgi-perl/select

Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]

Nun frag ich mich, darf ich die Ergebnisseite auslesen?

Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?

Ersteres.
http://www.robotstxt.org/orig.html:
"Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html [...]"

MfG ChrisB

--
„This is the author's opinion, not necessarily that of Starbucks.“