Christoph Zurnieden: verteiltes Crawlen

Beitrag lesen

Hi,

Zudem sieht das Script nicht zeigenswert aus...).

Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)

Was wolltest Du denn hören?

"Den Code gibts unter http://netp.ath.cx/den_code-0.0.1.tar.bz2"

Ja, wer schon _so_ fragt! ;-)

Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?

s.o.

Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst.

"Angst"? "Derrr ßamurrrai ßucht den Tott!" ;-)

Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.

n = |Knoten|
o = Overhead
r = "Rohmasse" (z.B. komplette HTML Dateien)
c = komprimierte Informationen (z.B. den Text aus HTML-Dateien minus Stoppwörtern und ideal komprimiert)
t_n = Bandbreite des Knotens
t_s = Bandbreite des "Sammlers"

Die Empfangs-Bandbreite t_s des Sammlers kann schon mal nicht sinnvoll größer sein als n*t_n. Die (für das Crawling) nutzbare Bandbreite t_c jedes Knotens beträgt t_n-(c+o), das ist dann auch der Nettobetrag, also der Gewinn.
Wofür also die Probe?

Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.

"Publish or Perish!" >;->

so short

Christoph Zurnieden