Reiner: verteiltes Crawlen

Beitrag lesen

Hallo zusammen,

ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

Ich habe hier zwei Programme (~ 2.3MB, gezippt) hinterlegt, die ein verteiltes Crawlen ermöglichen sollen.
D.h. das eine Script (insert_urls) fügt zentral URLs in eine DB, die eigentliche Suchmaschine (eher Crawlmaschine) holt sich Jobs ab und arbeitet diese ab.

Wer möchte, kann das mal testen. (Die Textdatei erklärt sich wohl von selbst, oder?).

Der Crawler läuft max. 15 Minuten. Über Probleme usw. würde ich gerne erfahren. Es kann (gerade das interessiert mich) zu Netzwerkschwierigkeiten kommen, wenn zu viele gleichzeitig meinen Server "attackieren".

Hinweis:
Das Programm sucht NICHT auf der lokalen Platte, höchstens auf localhost, wenn diese Anfrage kommt. Es beinhaltet KEINE Viren und KEINE Trojaner!!!

Viele Grüße,
Reiner