Reiner: verteiltes Crawlen

Hallo zusammen,

ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

Ich habe hier zwei Programme (~ 2.3MB, gezippt) hinterlegt, die ein verteiltes Crawlen ermöglichen sollen.
D.h. das eine Script (insert_urls) fügt zentral URLs in eine DB, die eigentliche Suchmaschine (eher Crawlmaschine) holt sich Jobs ab und arbeitet diese ab.

Wer möchte, kann das mal testen. (Die Textdatei erklärt sich wohl von selbst, oder?).

Der Crawler läuft max. 15 Minuten. Über Probleme usw. würde ich gerne erfahren. Es kann (gerade das interessiert mich) zu Netzwerkschwierigkeiten kommen, wenn zu viele gleichzeitig meinen Server "attackieren".

Hinweis:
Das Programm sucht NICHT auf der lokalen Platte, höchstens auf localhost, wenn diese Anfrage kommt. Es beinhaltet KEINE Viren und KEINE Trojaner!!!

Viele Grüße,
Reiner

  1. ups,

    ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

    Gerne. Aber ist das nicht eher eine olympische Sportart? Ich ziehe übrigens Brustschwimmen vor *g*

    Grüße aus Berlin

    Christoph S.

    1. ups,

      ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

      Gerne. Aber ist das nicht eher eine olympische Sportart? Ich ziehe übrigens Brustschwimmen vor *g*

      Was Du meinst, ist wohl eher Kraulen, oder?
      ;-)

      1. hi,

        Was Du meinst, ist wohl eher Kraulen, oder?
        ;-)

        Das teste ich grade entsprechend deiner Einladung. "sie krault mich - sie krault mich nicht ..."

        Grüße aus Berlin

        Christoph S.

        1. Das teste ich grade entsprechend deiner Einladung. "sie krault mich - sie krault mich nicht ..."

          Bist Du sicher? Ich sehe nichts.
          "Bevor" Du die searchengine.exe startest, mußt Du aber Adressen hochladen. Dazu die Textdatei nach Deinen Wünschen anpassen.

          Viel Spaß.

          1. Bist Du sicher? Ich sehe nichts.
            "Bevor" Du die searchengine.exe startest, mußt Du aber Adressen hochladen. Dazu die Textdatei nach Deinen Wünschen anpassen.

            Nach dem Eintrag neuer Adressen ca. 1Minute warten.
            Da ist eine Rotation eingebaut. Hintergrund ist, daß nicht bestimmte URLS bevorzugt behandelt werden, sondern alles seriell.
            Dazu diese kurze Zeit Verzug, damit noch laufende Scripte den Kram nicht nochmals abklappern.

            1. Noch ein Hinweis:

              falls man hinter einer Firewall sitzt und nur durch einen Proxy durchkommen kann:

              Systemsteuerung...
              Da gibt es irgendwo unter "System" einen Punkt Umgebungsvariablen.
              Hier sollte man eine Variable HTTP_proxy mit der eigenen Proxyadresse benennen. Bin mir nicht sicher, aber ich glaube, danach muß man den Rechner neu starten (Windoof).

              Gruß
              Reiner

  2. Hi,

    ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

    Was gibt's dafür als Gegenleistung? Nein, ich meine kein Geld, zumindest nicht primär.

    Ich habe hier zwei Programme (~ 2.3MB, gezippt) hinterlegt, die ein verteiltes Crawlen ermöglichen sollen.

    Es ist nett, das man erst nach dem Download erfährt, das das Windows-only ist. Die Erwähnung von Skripten weiter unten hatte mich wohl irritiert (die Größe eher weniger, vielleicht hast Du ja die Datenbank gleich mit drin), ich konnte nicht riechen, das Du hier ein paar Perlskripte "kompiliert" hast.

    Das Programm sucht NICHT auf der lokalen Platte, höchstens auf localhost, wenn diese Anfrage kommt. Es beinhaltet KEINE Viren und KEINE Trojaner!!!

    Du hättest Dir diesen Hinweis sparen können (den zu überprüfen übrigens _erheblichen_ Aufwand bedeuten würde!) wenn Du die Perlskripte einfach direkt in das Zip gepackt hättest. Wäre vor allem _erheblich_ kleiner geworden das Zip.

    so short

    Christoph Zurnieden

    1. Hi Christoph,

      ich tüftel gerade an einer Idee rum und wollte dazu einladen, an einem Test teilzunehmen.

      Was gibt's dafür als Gegenleistung? Nein, ich meine kein Geld, zumindest nicht primär.

      ja, Geld keines.
      Vielleicht bald etwas anderes (besser will ich nicht behaupten) neben Google?! ;-)

      Ich habe hier zwei Programme (~ 2.3MB, gezippt) hinterlegt, die ein verteiltes Crawlen ermöglichen sollen.

      Es ist nett, das man erst nach dem Download erfährt, das das Windows-only ist. Die Erwähnung von Skripten weiter unten hatte mich wohl irritiert (die Größe eher weniger, vielleicht hast Du ja die Datenbank gleich mit drin), ich konnte nicht riechen, das Du hier ein paar Perlskripte "kompiliert" hast.

      Das Programm sucht NICHT auf der lokalen Platte, höchstens auf localhost, wenn diese Anfrage kommt. Es beinhaltet KEINE Viren und KEINE Trojaner!!!

      Du hättest Dir diesen Hinweis sparen können (den zu überprüfen übrigens _erheblichen_ Aufwand bedeuten würde!) wenn Du die Perlskripte einfach direkt in das Zip gepackt hättest. Wäre vor allem _erheblich_ kleiner geworden das Zip.

      Du hast Recht. Hätte ich erwähnen sollen.
      Deswegen habe ich das mit der Spy...usw.-Ware erwähnt.

      Als Perlscripte wäre es viel zu komplex. Man muß dazu allerhand Module on Board haben. Das hat eine einfache Linuxinstallation nicht, geschweige, daß Otto-Normal-Windows-User Active-Perl das im Detail beibringen. (Soll nicht hochnäsig klingen, aber alle Details zu erläutern war mir zu kompliziert. Zudem sieht das Script nicht zeigenswert aus...).

      Gruß
      Reiner

      1. Hi,

        Das Programm sucht NICHT auf der lokalen Platte, höchstens auf localhost, wenn diese Anfrage kommt. Es beinhaltet KEINE Viren und KEINE Trojaner!!!

        Du hättest Dir diesen Hinweis sparen können (den zu überprüfen übrigens _erheblichen_ Aufwand bedeuten würde!) wenn Du die Perlskripte einfach direkt in das Zip gepackt hättest. Wäre vor allem _erheblich_ kleiner geworden das Zip.

        Du hast Recht. Hätte ich erwähnen sollen.
        Deswegen habe ich das mit der Spy...usw.-Ware erwähnt.

        Aha?
        Hättest Du nicht schreiben brauchen, wenn Du die Scripte gleich mit- oder besser anstatt geliefert hättest.

        Als Perlscripte wäre es viel zu komplex.

        Also muß ich Deinen Mist doch tatsächlich auseinanderbauen?
        Au Mann *sigh*
        Was isses denn? Perlapp? Nein, _da_ habe ich im Augenblick keine Lust zu, werfe nur mal eine Blick drauf. Aha, DBI ist also "komplex"? Zumindest finde ich nichts, das komplexer als die DBI Anbindung wäre und die ist ja wohl _sehr_ simpel.

        Äh ... sag' mal, hast Du etwas das Paßwort der ... also wirklich! Deshalb das "kompilieren" mit perlapp? So ganz gut scheint's Dir wohl nicht zugehen, oder?
        Au weiah!

        Man muß dazu allerhand Module on Board haben. Das hat eine einfache Linuxinstallation nicht,

        So etwas wie eine einfache Linuxinstallation gibt es nicht und jedes Perlmodul kann bequem geholt werden, das geht sogar fast automatisch.

        geschweige, daß Otto-Normal-Windows-User Active-Perl das im Detail beibringen. (Soll nicht hochnäsig klingen, aber alle Details zu erläutern war mir zu kompliziert.

        Das brauchst Du auch gar nicht, der Code reicht völlig. Hier im Forum treibt sich ein guter Teil der deutschsprachigen Perlelite rum.
        Ich gehöre da zwar nicht zu - nein, beileibe nicht! ;-) - aber trotzdem könnte ich mir vorstellen so eine verteilte Suche selber in ein paar Zeilen Perl zu schreiben.

        Zudem sieht das Script nicht zeigenswert aus...).

        Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)

        so short

        Christoph Zurnieden

        1. Äh ... sag' mal, hast Du etwas das Paßwort der ... also wirklich! Deshalb das "kompilieren" mit perlapp? So ganz gut scheint's Dir wohl nicht zugehen, oder?
          Au weiah!

          ?

          Zudem sieht das Script nicht zeigenswert aus...).

          Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)

          Was wolltest Du denn hören?
          Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?
          Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst. Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.
          Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

          Gruß
          Reiner

          1. Hi,

            Zudem sieht das Script nicht zeigenswert aus...).

            Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)

            Was wolltest Du denn hören?

            "Den Code gibts unter http://netp.ath.cx/den_code-0.0.1.tar.bz2"

            Ja, wer schon _so_ fragt! ;-)

            Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?

            s.o.

            Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst.

            "Angst"? "Derrr ßamurrrai ßucht den Tott!" ;-)

            Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.

            n = |Knoten|
            o = Overhead
            r = "Rohmasse" (z.B. komplette HTML Dateien)
            c = komprimierte Informationen (z.B. den Text aus HTML-Dateien minus Stoppwörtern und ideal komprimiert)
            t_n = Bandbreite des Knotens
            t_s = Bandbreite des "Sammlers"

            Die Empfangs-Bandbreite t_s des Sammlers kann schon mal nicht sinnvoll größer sein als n*t_n. Die (für das Crawling) nutzbare Bandbreite t_c jedes Knotens beträgt t_n-(c+o), das ist dann auch der Nettobetrag, also der Gewinn.
            Wofür also die Probe?

            Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

            Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.

            "Publish or Perish!" >;->

            so short

            Christoph Zurnieden

            1. Hi,

              Zudem sieht das Script nicht zeigenswert aus...).

              Das möchtest Du jetzt nicht wirklich als Grund angeben, oder? ;-)

              Was wolltest Du denn hören?

              "Den Code gibts unter http://netp.ath.cx/den_code-0.0.1.tar.bz2"

              Ja, wer schon _so_ fragt! ;-)

              Bzw. was muß ich tun, damit das Ganze für Dich interessant erscheint?

              s.o.

              Ok, überzeugt!
              Ich kann das aber wohl schlecht in dieser Version offenlegen.
              Das hast Du ja selbst erkannt, daß da momentan ein DB-Zugriff drinsteckt. Also muß man wohl eine Schnittstelle schaffen.

              Ich werde die Suchergebnisse auch noch "durchsuchbar" machen, keine Angst.

              "Angst"? "Derrr ßamurrrai ßucht den Tott!" ;-)

              Anscheinend doch.

              Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.

              n = |Knoten|
              o = Overhead
              r = "Rohmasse" (z.B. komplette HTML Dateien)
              c = komprimierte Informationen (z.B. den Text aus HTML-Dateien minus Stoppwörtern und ideal komprimiert)
              t_n = Bandbreite des Knotens
              t_s = Bandbreite des "Sammlers"

              Die Empfangs-Bandbreite t_s des Sammlers kann schon mal nicht sinnvoll größer sein als n*t_n. Die (für das Crawling) nutzbare Bandbreite t_c jedes Knotens beträgt t_n-(c+o), das ist dann auch der Nettobetrag, also der Gewinn.
              Wofür also die Probe?

              Weil ich das gerne mal sehen möchte. Rechnen kann man viel, aber ob das alles wirklich so hinhaut, ist eine andere Sache.

              Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

              Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.

              Muß ich das verstehen?

              Gruß
              Reiner

              1. Hi,

                Ok, überzeugt!

                Oh, das war aber einfach diesmal ;-)

                Ich kann das aber wohl schlecht in dieser Version offenlegen.

                Die solltest Du eigentlich und vor allem sicherheitshalber sogar zurückziehen und die DB dichtmachen.

                Das hast Du ja selbst erkannt, daß da momentan ein DB-Zugriff drinsteckt. Also muß man wohl eine Schnittstelle schaffen.

                Ja, das wäre wohl besser glaube ich ;-)
                Aber sowas passiert einem Anfänger schnell mal und ich nehme mal an, das Du das auch kein zweitesmal mehr machen wirst oder?

                Ich möchte mit diesem kleinen Programm nur mal sehen, wie die Performance aussieht, wenn man das auf viele Rechner verteilt.

                n = |Knoten|

                [...]

                ist dann auch der Nettobetrag, also der Gewinn.
                Wofür also die Probe?

                Weil ich das gerne mal sehen möchte. Rechnen kann man viel, aber ob das alles wirklich so hinhaut, ist eine andere Sache.

                Wenn nicht hat jemand falsch gerechnet ;-)

                Aber Scherz beiseite: für diesen Fall - und natürlich nicht zuletzt die soziale Komponente: "Er hat zumindest schonmal 'was Funktionierendes!" - gibt es den "Proof of Concept", die "Probe auf's Exempel" wie der Deutsche sagen würde. Statt verschwurbelter Erklärungen gibt es einfach eine Portion mehr oder weniger (ich hoffe doch schwer "mehr"? ;-) gut kommentierten Code.

                Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

                Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.

                Muß ich das verstehen?

                Ob Du das verstehen _mußt_ kommt auf Deinen Bildungsstand an. Da Du aber einen Netzanschluß hast, hättest Du alles nachschlagen können. Also liegt das Unverständnis wohl an meiner Ausdrucksweise. In etwas trockeneren [sic! ;-)] Worten: Deine Arbeit ist eine beispielhafte Ausführung Deiner Idee. "Beispielhaft" hier in seiner ursprünglichen Bedeutung "als reines Beipiel gedacht". Der Code soll lediglich die Programmlogik vedeutlichen und durch seine Funktion selbst, wie schlecht auch immer die sein mag, den Beweis erbringen, das die Theorie in praxi umsetzbar ist.
                Wenn dann so ein Beckmesser, Erbsenzähler, Haar-in-der-Suppe-Finder kommt und Deinen Code durchkämmt, dann -- ignoriere ihn getrost. (Aber immer schauen, ob er nicht zufällig auf einen Design- oder gar Denkfehler im Konzept gestoßen ist!)

                Ich finde die Idee des verteilten Crawlings nicht schlecht und habe sie im Kopf schon etwas weitergesponnen. Da das aber Deine Idee ist, gebührt Dir auch das Recht der Erstveröffentlichung. Nur ausüben mußt Du das natürlich selber. Schmeiß also die sensitiven Daten aus Deinem Code, kontrolliere alle Lizenzen ob die eine Veröffentlichung/Weitergabe erlauben (bei Perl meist gegeben), pack ein Päckchen und annonciere es bei Freshmeat.

                Wenn Du das sofort machst, auch bitte hier, ist dann bequemer für mich ;-)

                so short

                Christoph Zurnieden

                1. Hi,

                  Ok, überzeugt!

                  Oh, das war aber einfach diesmal ;-)

                  man ist ja lernfähig...

                  Ich kann das aber wohl schlecht in dieser Version offenlegen.

                  Die solltest Du eigentlich und vor allem sicherheitshalber sogar zurückziehen und die DB dichtmachen.

                  Das hast Du ja selbst erkannt, daß da momentan ein DB-Zugriff drinsteckt. Also muß man wohl eine Schnittstelle schaffen.

                  Ja, das wäre wohl besser glaube ich ;-)
                  Aber sowas passiert einem Anfänger schnell mal und ich nehme mal an, das Du das auch kein zweitesmal mehr machen wirst oder?

                  Ich halte mich nicht für einen Anfänger, aber das ist relativ.
                  Wenn jemand sich der destruktiven Mühe machen wollte, in die DB reinzukommen, wäre das kein Problem! Die Rechte sind für den Account entspr. gesetzt. Selbst wenn wirkliches Chaos entstünde, habe ich eine Kopie. Ich hatte auch nicht vor, ein paar Wochen testen zu lassen, das wird wieder dicht gemacht.

                  Aber Scherz beiseite: für diesen Fall - und natürlich nicht zuletzt die soziale Komponente: "Er hat zumindest schonmal 'was Funktionierendes!" - gibt es den "Proof of Concept", die "Probe auf's Exempel" wie der Deutsche sagen würde. Statt verschwurbelter Erklärungen gibt es einfach eine Portion mehr oder weniger (ich hoffe doch schwer "mehr"? ;-) gut kommentierten Code.

                  Ich will nicht zu viel Hoffnung erwecken, aber Du wirst etwas bekommen. Schritt für Schritt!

                  Und ja: ich meine diesen Grund! Das Script sieht noch etwas krautig aus und ich habe keinen Bock auf eine Diskussion à la "das könnte man hier und da anders schreiben und warum machst Du das denn da?".

                  Ah, mit Verlaub, aber: scheiß drauf! Das soll wohl ein "Proof-of-Concept" sein, da ist das komplett egal und Du kannst alle ignorieren, die ihr Beckmesser blank ziehen.

                  Muß ich das verstehen?

                  Ob Du das verstehen _mußt_ kommt auf Deinen Bildungsstand an. Da Du aber einen Netzanschluß hast, hättest Du alles nachschlagen können. Also liegt das Unverständnis wohl an meiner Ausdrucksweise. In etwas trockeneren [sic! ;-)] Worten: Deine Arbeit ist eine beispielhafte Ausführung Deiner Idee. "Beispielhaft" hier in seiner ursprünglichen Bedeutung "als reines Beipiel gedacht". Der Code soll lediglich die Programmlogik vedeutlichen und durch seine Funktion selbst, wie schlecht auch immer die sein mag, den Beweis erbringen, das die Theorie in praxi umsetzbar ist.
                  Wenn dann so ein Beckmesser, Erbsenzähler, Haar-in-der-Suppe-Finder kommt und Deinen Code durchkämmt, dann -- ignoriere ihn getrost. (Aber immer schauen, ob er nicht zufällig auf einen Design- oder gar Denkfehler im Konzept gestoßen ist!)

                  Achso, das beckmesser hatte ich nicht verstanden.
                  Genau das meinte ich auch, ist ein Grund hier, warum viele Leute keine Ideen platzieren, weil immer alles bis aufs Haar auseinandergenommen wird.

                  Ich finde die Idee des verteilten Crawlings nicht schlecht und habe sie im Kopf schon etwas weitergesponnen. Da das aber Deine Idee ist, gebührt Dir auch das Recht der Erstveröffentlichung. Nur ausüben mußt Du das natürlich selber. Schmeiß also die sensitiven Daten aus Deinem Code, kontrolliere alle Lizenzen ob die eine Veröffentlichung/Weitergabe erlauben (bei Perl meist gegeben), pack ein Päckchen und annonciere es bei Freshmeat.

                  Wenn Du das sofort machst, auch bitte hier, ist dann bequemer für mich ;-)

                  Naja, so toll (neu) ist die Idee nicht.
                  Ich poste das hier.

                  Gruß
                  Reiner

                  1. Hi,

                    Aber sowas passiert einem Anfänger schnell mal und ich nehme mal an, das Du das auch kein zweitesmal mehr machen wirst oder?

                    Ich halte mich nicht für einen Anfänger, aber das ist relativ.

                    Nunja, wer einen Anfängerfehler macht ("Security thru Obscurity"), der muß es sich schon gefallen lassen auch als Anfänger benamst zu werden ;-)

                    Wenn jemand sich der destruktiven Mühe machen wollte, in die DB reinzukommen, wäre das kein Problem!

                    Warum? Das muß ja nun wirklich nicht sein, oder?

                    Die Rechte sind für den Account entspr. gesetzt. Selbst wenn wirkliches Chaos entstünde, habe ich eine Kopie.

                    Es geht nicht nur um Deine Daten. "Privilege Escalation" wird leider noch zu oft unterschätzt. Es gibt keinen wirklichen Unterschied zwischen einem Remote- und einem Local-only-Exploit!

                    Ich hatte auch nicht vor, ein paar Wochen testen zu lassen, das wird wieder dicht gemacht.

                    Es braucht keine Wochen um Unsinn anzustellen, selbst dem durchschnittlichem Script-Kiddie reichen da schon ein paar Minuten Aufenthalt. Z.B. um einen Schädling in Dein Paket reinzubauen. (Obwohl das die Fähigkeiten eines Script-Kiddies dann doch überfordern würde ;-)

                    Ich will nicht zu viel Hoffnung erwecken, aber Du wirst etwas bekommen.

                    Nein, nicht ich, alle.

                    Schritt für Schritt!

                    "Publish early and often!" heißt's nicht ohne Grund.

                    Achso, das beckmesser hatte ich nicht verstanden.

                    Ähm ... _den_ hättest Du aber wirklich nachschlagen können ;-)

                    Genau das meinte ich auch, ist ein Grund hier, warum viele Leute keine Ideen platzieren, weil immer alles bis aufs Haar auseinandergenommen wird.

                    Es braucht ein dickes Fell, ja. Empfindlichkeiten jedweder Art mußt Du da schon vorher ablegen.
                    Es hilft aber auch, wenn Du etwas in der Art "Proof of concept only, not for regular use!" dranschreibst. Dann brauchst Du auch kein schlechtes Gewissen zu haben, wenn Du die Korinthenkacker ignorierst.

                    Ich finde die Idee des verteilten Crawlings nicht schlecht und habe sie im Kopf schon etwas weitergesponnen.

                    Naja, so toll (neu) ist die Idee nicht.

                    Neu ist nicht zwingend auch toll, ebenso wie toll nicht zwingend neu sein muß.
                    Klar ist die Idee nicht wirklich neu, ich habe da mal ein paar Daten kontrolliert, das ist teilweise 10 Jahre und älter. Zu der Zeit war der Netzanschluß eines PCs über ein schlichtes Telephon-Modem realisiert, wenn überhaupt einer (PC wie Netzanschluß) da war. Mittlerweile ist aber nicht nur die Verbreitung von PCs mit Netzanschlüssen stark angestiegen sondern auch die Anschlußbandbreite der einzelnen Rechner. Breitband macht sich langsam breit, wenn mir der Kalauer ausnahmsweise einmal gestattet ist.

                    Die Idee vom verteiltem Indizieren kann nun tatsächlich praktiziert werden. Es ist ja auch schon in einigen P2P Anwendungen mit eingebaut, nur noch nicht wirklich konsequent als verteilte Suche. Vollständige Dezentralität wäre zwar leider nicht praktikabel, kann aber auf gewohnte Weise "umrouted" werden.
                    Es ließe sich mit etwas Geschick sogar ein wenig Geld damit verdienen. Allerdings auch mit reichlich Kapital, leider, da es nicht die Software ist, mit der sich Geld verdienen ließe, sondern ein Cachingservice o.ä. also massiver Hardware.

                    BTW: frühzeitige Veröffentlichung hilft auch ein wenig gegen Softwarepatente. Das Problem dräut nämlich immer noch hier in good ol' Europe!

                    so short

                    Christoph Zurnieden