crawler für Dokumente auf einer Webseite von Jörg Reinholz, 05.11.2014 12:17

crawler für Dokumente auf einer Webseite

Jörg Reinholz 05.11.2014 12:17

software

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.

Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.

Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.

Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.

Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:

wget -d --delete-after http://deineDomain

"Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

Jörg Reinholz

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Jörg Reinholz: crawler für Dokumente auf einer Webseite

Beitrag lesen

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite