crawler für Dokumente auf einer Webseite von droomdre, 05.11.2014 11:45

crawler für Dokumente auf einer Webseite

droomdre 05.11.2014 11:45

software

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

Richtig!

wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

Für Windows:

[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

Ich hoffe, das reicht für "einfach installieren".

Jörg Reinholz

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
MfG.

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

droomdre: crawler für Dokumente auf einer Webseite

Beitrag lesen

crawler für Dokumente auf einer Webseite

crawler für Dokumente auf einer Webseite