Hi,
Zudem sieht das Script nicht zeigenswert aus...).
Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)
Was wolltest Du denn hören?
"Den Code gibts unter http://netp.ath.cx/den_code-0.0.1.tar.bz2"
Ja, wer schon _so_ fragt! ;-)
Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?
s.o.
Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst.
"Angst"? "Derrr ßamurrrai ßucht den Tott!" ;-)
Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.
n = |Knoten|
o = Overhead
r = "Rohmasse" (z.B. komplette HTML Dateien)
c = komprimierte Informationen (z.B. den Text aus HTML-Dateien minus Stoppwörtern und ideal komprimiert)
t_n = Bandbreite des Knotens
t_s = Bandbreite des "Sammlers"
Die Empfangs-Bandbreite t_s des Sammlers kann schon mal nicht sinnvoll größer sein als n*t_n. Die (für das Crawling) nutzbare Bandbreite t_c jedes Knotens beträgt t_n-(c+o), das ist dann auch der Nettobetrag, also der Gewinn.
Wofür also die Probe?
Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".
Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.
"Publish or Perish!" >;->
so short
Christoph Zurnieden