Shadowcrow: Website Crawler [revisited]

Beitrag lesen

hi $name,

wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

das auslesen ist IMO nicht das problem sondern das weiterverarbeiten!

Deren robots.txt sieht so aus:

robots.txt zu www.jobworld.de

nun jaaaa, die robots.txt ist ja nur eine freundliche bitte nicht zu crawlen...

gruss
shadow

--
Vor dem Parser und auf hoher See sind wir allein in Gottes Hand