tag:forum.selfhtml.org,2005:/self Fremde Website crawlen – SELFHTML-Forum 2014-01-31T12:00:44Z https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601100#m1601100 Naps 2014-01-29T13:56:33Z 2014-01-29T13:56:33Z Fremde Website crawlen <p>Hi,</p> <p>gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?<br> Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?</p> <p>MfG Naps</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601102#m1601102 michat 2014-01-29T14:20:41Z 2014-01-29T14:20:41Z Fremde Website crawlen <p>Hi</p> <p>naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.</p> <p>MH</p> <div class="signature">-- <br> war unregistriert "michaa" </div> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601101#m1601101 Texter mit x 2014-01-29T14:37:09Z 2014-01-29T14:37:09Z Fremde Website crawlen <blockquote> <p>gibt es Beschränkungen bei der Geschwindigkeit, mit der ich fremde Websites crawlen kann?<br> Ich denke da eher in die Richtung, dass es nicht als "Angriff" gewertet wird?</p> </blockquote> <p>Wenn man ein berechtigtes Interesse für die Abfragefrequenz hat, dann dürfte man sich damit kaum was zu Schulden kommen lassen. Bei Inhalten, die sehr oft aktualisiert und abgefragt werden, sollte der Anbieter vorsorgen.</p> <p>Bei fehlendem berechtigtem Interesse, würde wohl ein unberechtigtes Interesse (Schädigungsabsicht) oder Fahrlässigkeit angenommen werden, was ggf. zivilrechtlich und strafrechtlich (303b) geahndet werden kann.</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601103#m1601103 Naps 2014-01-29T14:34:31Z 2014-01-29T14:34:31Z Fremde Website crawlen <blockquote> <p>naja, wenn du es mit google tempo machst (unbedeutendes ca alle 6 monate, bedeutende foren auch täglich) bist du bestimmt im grünen bereich. Das entspricht aber wohl nicht deinen Kraulbedürfnissen. Hilfreich zur Beurteilung (Stalking vs. den Hof machen) könnten jedoch die Kraulwünsche deiner angebeteten ... Seite sein.</p> </blockquote> <p>Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.</p> <p>MfG Naps</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601104#m1601104 Texter mit x 2014-01-29T14:45:38Z 2014-01-29T14:45:38Z Fremde Website crawlen <blockquote> <p>Ich würde es eigentlich nur ein mal machen müssen. Mit Geschwindigkeit meinte ich die Links bzw. Seiten / Sekunde, Minute usw.</p> </blockquote> <p>Du meinst ein mal alle Unterseiten, die zum Projekt gehören?</p> <p>Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601105#m1601105 Naps 2014-01-29T14:56:35Z 2014-01-29T14:56:35Z Fremde Website crawlen <blockquote> <p>Du meinst ein mal alle Unterseiten, die zum Projekt gehören?</p> </blockquote> <p>genau</p> <blockquote> <p>Willst du mehrere Seiten parallel abfragen? Wenn nein, einfach nacheinander, wenn eine Seite übermittelt wurde, die nächste Seite abfragen. Wird doch ausreichen oder? Man kann auch 5 Sekunden Pause einlegen, muß man aber nicht.</p> </blockquote> <p>Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.</p> <p>Danke!<br> MfG Naps</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601109#m1601109 Tom bitworks@web.de http://selfhtml.bitworks.de 2014-01-30T09:08:03Z 2014-01-30T09:08:03Z Fremde Website crawlen <p>Hello,</p> <blockquote> <p>Nein, vom Aufbau des Scripts, durchlaufe ich einfach alle Links in einer Schleife. Ich habe zur Sicherheit nach jedem Link 2 Sekunden Pause eingelegt.</p> </blockquote> <p>Schleife ist aber schlecht.<br> Rekursiv wäre da schon der bessere Ansatz. :-)</p> <p>Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.</p> <p>Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.</p> <p>Ein gutes Crawlerscript ist nichts Triviales!</p> <p>Liebe Grüße aus dem schönen Oberharz</p> <p>Tom vom Berg<br> <img src="http://selfhtml.bitworks.de/Virencheck.gif" alt="" loading="lazy"></p> <div class="signature">-- <br>  ☻_<br> /▌<br> / \ Nur selber lernen macht schlau<br> <a href="http://restaurant-zur-kleinen-kapelle.de" rel="nofollow noopener noreferrer">http://restaurant-zur-kleinen-kapelle.de</a> </div> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601106#m1601106 Matthias Apsel webmaster@billiger-im-urlaub.de http://alternativ-tankstelle.de 2014-01-30T11:22:12Z 2014-01-30T11:22:12Z Fremde Website crawlen <p>Om nah hoo pez nyeetz, Naps!</p> <p><a href="http://www.httrack.com/" rel="nofollow noopener noreferrer">HTTrack</a> ist nichts für dich?</p> <p>Matthias</p> <div class="signature">-- <br> Der Unterschied zwischen Java und JavaScript ist größer als der zwischen <a href="http://selfhtml.apsel-mv.de/java-javascript/index.php?buchstabe=M#mond--1" rel="nofollow noopener noreferrer">Mond und Mondrian</a>.<br> <img src="http://www.billiger-im-urlaub.de/kreis_sw.gif" alt="" loading="lazy"><br> </div> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601107#m1601107 Naps 2014-01-31T11:41:49Z 2014-01-31T11:41:49Z Fremde Website crawlen <blockquote> <p><a href="http://www.httrack.com/" rel="nofollow noopener noreferrer">HTTrack</a> ist nichts für dich?</p> </blockquote> <p>Nein leider! Ich speicher die Daten direkt in einer MySQL DB.</p> <p>Danke!<br> MfG Naps</p> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601108#m1601108 M. 2014-01-31T12:00:44Z 2014-01-31T12:00:44Z Fremde Website crawlen <p>Mahlzeit,</p> <blockquote> <p>Nein leider! Ich speicher die Daten direkt in einer MySQL DB.</p> </blockquote> <p>Und wo das Problem? Mit httrack holst du dir die Seiten auf deinen Rechner und dann kannst du in Ruhe die Seiten analysieren und in die Datenbank schreiben.</p> <div class="signature">-- <br> 42 </div> https://forum.selfhtml.org/self/2014/jan/29/fremde-website-crawlen/1601110#m1601110 Naps 2014-01-30T11:00:31Z 2014-01-30T11:00:31Z Fremde Website crawlen <blockquote> <p>Schleife ist aber schlecht.<br> Rekursiv wäre da schon der bessere Ansatz. :-)</p> </blockquote> <p>Stimmt, ist sicher besser ;)</p> <blockquote> <p>Und denk dran, auch die Header abzufragen und empfangene Cookies ggf. wieder mitzusenden, damit Dein Script auch das zu sehen bekommt, was ein üblicher Nutzer mit seinem Browser (erstmal ohne Einsatz von JS) zu sehen bekommen würde.</p> <p>Vergiss auch nicht die im Header verlinkten Dateien, wie z.B. CSS, abzuholen.</p> </blockquote> <p>In diesem Fall, brauche ich das zum Glück nicht zu beachten, weil es mir nur um einen Teil Website geht, der immer gleich ist.</p> <p>MfG Naps</p>