Website Crawler [revisited] von Shadowcrow, 26.01.2009 23:18

Beitrag lesen

Website Crawler [revisited]

Shadowcrow 26.01.2009 23:18

hi $name,

wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

das auslesen ist IMO nicht das problem sondern das weiterverarbeiten!

Deren robots.txt sieht so aus:

robots.txt zu www.jobworld.de

nun jaaaa, die robots.txt ist ja nur eine freundliche bitte nicht zu crawlen...

gruss
shadow

--
Vor dem Parser und auf hoher See sind wir allein in Gottes Hand