Hi,
Zudem sieht das Script nicht zeigenswert aus...).
Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)
Was wolltest Du denn hören?
"Den Code gibts unter http://netp.ath.cx/den_code-0.0.1.tar.bz2"
Ja, wer schon _so_ fragt! ;-)
Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?
s.o.
Ok, überzeugt!
Ich kann das aber wohl schlecht in dieser Version offenlegen.
Das hast Du ja selbst erkannt, daß da momentan ein DB-Zugriff drinsteckt. Also muß man wohl eine Schnittstelle schaffen.
Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst.
"Angst"? "Derrr ßamurrrai ßucht den Tott!" ;-)
Anscheinend doch.
Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.
n = |Knoten|
o = Overhead
r = "Rohmasse" (z.B. komplette HTML Dateien)
c = komprimierte Informationen (z.B. den Text aus HTML-Dateien minus Stoppwörtern und ideal komprimiert)
t_n = Bandbreite des Knotens
t_s = Bandbreite des "Sammlers"Die Empfangs-Bandbreite t_s des Sammlers kann schon mal nicht sinnvoll größer sein als n*t_n. Die (für das Crawling) nutzbare Bandbreite t_c jedes Knotens beträgt t_n-(c+o), das ist dann auch der Nettobetrag, also der Gewinn.
Wofür also die Probe?
Weil ich das gerne mal sehen möchte. Rechnen kann man viel, aber ob das alles wirklich so hinhaut, ist eine andere Sache.
Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".
Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.
Muß ich das verstehen?
Gruß
Reiner