Naps: Fremde Website crawlen

Hi,

gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?

MfG Naps

  1. Hi

    naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.

    MH

    --
    war unregistriert "michaa"
    1. naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.

      Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.

      MfG Naps

      1. Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.

        Du meinst ein mal alle Unterseiten, die zum Projekt gehören?

        Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.

        1. Du meinst ein mal alle Unterseiten, die zum Projekt gehören?

          genau

          Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.

          Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.

          Danke!
          MfG Naps

          1. Hello,

            Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.

            Schleife ist aber schlecht.
            Rekursiv wäre da schon der bessere Ansatz. :-)

            Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.

            Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.

            Ein gutes Crawlerscript ist nichts Triviales!

            Liebe Grüße aus dem schönen Oberharz

            Tom vom Berg

            --
             ☻_
            /▌
            / \ Nur selber lernen macht schlau
            http://restaurant-zur-kleinen-kapelle.de
            1. Schleife ist aber schlecht.
              Rekursiv wäre da schon der bessere Ansatz. :-)

              Stimmt, ist sicher besser ;)

              Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.

              Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.

              In diesem Fall, brauche ich das zum Glück nicht zu beachten, weil es mir nur um einen Teil Website geht, der immer gleich ist.

              MfG Naps

          2. Om nah hoo pez nyeetz, Naps!

            HTTrack ist nichts für dich?

            Matthias

            --
            Der Unterschied zwischen Java und JavaScript ist größer als der zwischen Mond und Mondrian.

            1. HTTrack ist nichts für dich?

              Nein leider! Ich speicher die Daten direkt in einer MySQL DB.

              Danke!
              MfG Naps

              1. Mahlzeit,

                Nein leider! Ich speicher die Daten direkt in einer MySQL DB.

                Und wo das Problem? Mit httrack holst du dir die Seiten auf deinen Rechner und dann kannst du in Ruhe die Seiten analysieren und in die Datenbank schreiben.

                --
                42
  2. gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
    Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?

    Wenn man ein berechtigtes Interesse für die Abfragefrequenz hat, dann dürfte man sich damit kaum was zu Schulden kommen lassen. Bei Inhalten, die sehr oft aktualisiert und abgefragt werden, sollte der Anbieter vorsorgen.

    Bei fehlendem berechtigtem Interesse, würde wohl ein unberechtigtes Interesse (Schädigungsabsicht) oder Fahrlässigkeit angenommen werden, was ggf. zivilrechtlich und strafrechtlich (303b) geahndet werden kann.