Tom: Fremde Website crawlen

Beitrag lesen

Hello,

Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.

Schleife ist aber schlecht.
Rekursiv wäre da schon der bessere Ansatz. :-)

Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.

Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.

Ein gutes Crawlerscript ist nichts Triviales!

Liebe Grüße aus dem schönen Oberharz

Tom vom Berg

--
 ☻_
/▌
/ \ Nur selber lernen macht schlau
http://restaurant-zur-kleinen-kapelle.de