Jörg Reinholz: crawler für Dokumente auf einer Webseite

Beitrag lesen

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.

Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.

Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.

Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.

Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:

wget -d --delete-after http://deineDomain

"Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

Jörg Reinholz