Fremde Website crawlen – SELFHTML-Forum

Fremde Website crawlen

2014-01-29T13:56:33Z

Hi,

gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?

MfG Naps

Fremde Website crawlen

2014-01-29T14:20:41Z

naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.

--
war unregistriert "michaa"

Fremde Website crawlen

2014-01-29T14:37:09Z

gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?
Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?

Wenn man ein berechtigtes Interesse für die Abfragefrequenz hat, dann dürfte man sich damit kaum was zu Schulden kommen lassen. Bei Inhalten, die sehr oft aktualisiert und abgefragt werden, sollte der Anbieter vorsorgen.

Bei fehlendem berechtigtem Interesse, würde wohl ein unberechtigtes Interesse (Schädigungsabsicht) oder Fahrlässigkeit angenommen werden, was ggf. zivilrechtlich und strafrechtlich (303b) geahndet werden kann.

Fremde Website crawlen

2014-01-29T14:34:31Z

naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.

Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.

MfG Naps

Fremde Website crawlen

2014-01-29T14:45:38Z

Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.

Du meinst ein mal alle Unterseiten, die zum Projekt gehören?

Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.

Fremde Website crawlen

2014-01-29T14:56:35Z

Du meinst ein mal alle Unterseiten, die zum Projekt gehören?

genau

Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.

Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.

Danke!
MfG Naps

Fremde Website crawlen

2014-01-30T09:08:03Z

Hello,

Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.

Schleife ist aber schlecht.
Rekursiv wäre da schon der bessere Ansatz. :-)

Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.

Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.

Ein gutes Crawlerscript ist nichts Triviales!

Liebe Grüße aus dem schönen Oberharz

Tom vom Berg

--
☻_
/▌
/ \ Nur selber lernen macht schlau
http://restaurant-zur-kleinen-kapelle.de

Fremde Website crawlen

2014-01-30T11:22:12Z

Om nah hoo pez nyeetz, Naps!

HTTrack ist nichts für dich?

Matthias

--
Der Unterschied zwischen Java und JavaScript ist größer als der zwischen Mond und Mondrian.

Fremde Website crawlen

2014-01-31T11:41:49Z

HTTrack ist nichts für dich?

Nein leider! Ich speicher die Daten direkt in einer MySQL DB.

Danke!
MfG Naps

Fremde Website crawlen

2014-01-31T12:00:44Z

Mahlzeit,

Nein leider! Ich speicher die Daten direkt in einer MySQL DB.

Und wo das Problem? Mit httrack holst du dir die Seiten auf deinen Rechner und dann kannst du in Ruhe die Seiten analysieren und in die Datenbank schreiben.

--
42

Fremde Website crawlen

2014-01-30T11:00:31Z

Schleife ist aber schlecht.
Rekursiv wäre da schon der bessere Ansatz. :-)

Stimmt, ist sicher besser ;)

Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.

Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.

In diesem Fall, brauche ich das zum Glück nicht zu beachten, weil es mir nur um einen Teil Website geht, der immer gleich ist.

MfG Naps