Lude: Web-Bots

Hallo,

ich möchte einen einfachen Webcrawler schreiben. Der soll Material zu bestimmten Themen aus dem WWW ziehen. Datenhaltung erfolgt mit dem MSSQL-Server.

Fragen:

  • Wo gibt es Beispielcode/Freeware-Bots ?
  • Was ist zu beachten?     :-)
  • Wie darf die Maschine, auf dem das Ding laufen wird, dimensioniert sein?
  • Bandbreite? 2MegBit OK?

Ich hab' leider keine Ahnung; ist alles für mich Neuland.

Gruss,
Lude

  1. Hallo,

    ich möchte einen einfachen Webcrawler schreiben. Der soll Material zu bestimmten Themen aus dem WWW ziehen. Datenhaltung erfolgt mit dem MSSQL-Server.

    Fragen:

    • Wo gibt es Beispielcode/Freeware-Bots ?
    • Was ist zu beachten?     :-)
    • Wie darf die Maschine, auf dem das Ding laufen wird, dimensioniert sein?
    • Bandbreite? 2MegBit OK?

    Ich hab' leider keine Ahnung; ist alles für mich Neuland.

    ich arbeite seit ca. einem Jahr an der Entwicklung von Ideen und entdecke noch immer etwas, was ich bisher nicht gesehen habe. Bin aber schon sehr weit.
    Den Quellcode möchte ich nicht rausgeben, aber wie sowas im Grunde funktionieren kann, könnte ich mal beschreiben.
    Im Grunde reicht ein Modem, wenn Du genug Zeit hast... :-)
    2Mbit ist mehr als ausreichend!!!

    Reiner

    1. Achso,
      das Ding liegt startbereit auf meinem Rechner.
      Ist aber im Moment nicht sehr unterhaltsam.
      D.h. Du kannst da einen URL reinwerfen, der untersucht werden soll.
      Wenn er Fehler findet, kannst Du mal nachsehen. Wenn er nichts findet, tut er so, als hätte er den URL nie untersucht...

      Das ist nur zur Demo, man kann aus dem Kern mittlerweile ratzfatz eine Volltext bzw. Metatag-Suche bauen, nach Fehlern (4xx, 5xx...) suchen bzw. Bäume (wer linkt wen?) bauen.

      Aber ich will da hier gar nicht näher drauf eingehen. Als ich das hier vor ein paar Monaten genacht habe, kamen so lapidare Dinge wie: "Das gibt es doch schon....blablabla".

      Reiner

      1. Moin Reiner,

        das Ding liegt startbereit auf meinem Rechner.

        So ganz verstehe ich Dein Posting nicht!

        Du hast Lude "angefüttert", und das war's dann auch schon.

        Schlußfolgerung: Deine Antwort auf Ludes Posting war keine Antwort,
        ergo IMHO sinnloses Posting

        regds
        Wiz

        1. Hi,

          Moin Reiner,

          das Ding liegt startbereit auf meinem Rechner.

          So ganz verstehe ich Dein Posting nicht!

          Du hast Lude "angefüttert", und das war's dann auch schon.

          Schlußfolgerung: Deine Antwort auf Ludes Posting war keine Antwort,
          ergo IMHO sinnloses Posting

          Nein, ich kann dazu Tips geben.
          Hatte vorhin nicht die Zeit.
          Den Quelltext will ich allerdings nicht offenlegen, da steckt zuviel drin mittlerweile.