droomdre: crawler für Dokumente auf einer Webseite

Beitrag lesen

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

Richtig!

wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

Für Windows:

[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

Ich hoffe, das reicht für "einfach installieren".

Jörg Reinholz

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
MfG.