crawler für Dokumente auf einer Webseite – SELFHTML-Forum

crawler für Dokumente auf einer Webseite

2014-11-04T09:12:10Z

Hi folks,

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit freundlichen Grüßen.
Droomdre

crawler für Dokumente auf einer Webseite

2014-11-04T09:32:47Z

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

crawler für Dokumente auf einer Webseite

2014-11-04T12:05:02Z

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

Richtig!

wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

Für Windows:

[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

Ich hoffe, das reicht für "einfach installieren".

Jörg Reinholz

crawler für Dokumente auf einer Webseite

2014-11-05T10:45:50Z

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

Richtig!

wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

Für Windows:

[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

Ich hoffe, das reicht für "einfach installieren".

Jörg Reinholz

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
MfG.

crawler für Dokumente auf einer Webseite

2014-11-05T11:17:51Z

vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.

Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.

Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.

Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.

Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:

wget -d --delete-after http://deineDomain

"Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

Jörg Reinholz

crawler für Dokumente auf einer Webseite

2014-11-05T11:31:42Z

Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

Lass doch mal den Pipe zu grep weg und schau nach, was kommt.

Jörg Reinholz

crawler für Dokumente auf einer Webseite

2014-11-05T12:40:59Z

Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

Lass doch mal den Pipe zu grep weg und schau nach, was kommt.

Jörg Reinholz

Ich bekomme das:
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1
--13:39:17-- http://www.klinikamrosengarten.de/
=> `www.klinikamrosengarten.de/index.html'
Resolving www.klinikamrosengarten.de... 46.30.58.110
Connecting to www.klinikamrosengarten.de|46.30.58.110|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
200 OK

www.klinikamrosengarten.de/index.html: No such file or directory

FINISHED --13:39:17--
Downloaded: 0 bytes in 0 files

Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

crawler für Dokumente auf einer Webseite

2014-11-05T17:09:19Z

Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.

Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.

Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:

  
robots = off  
user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0

Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...

Jörg Reinholz

crawler für Dokumente auf einer Webseite

2014-11-06T12:08:20Z

Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.

Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.

Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:

robots = off
user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0


>   
> Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...  
>   
>   
> Jörg Reinholz  
>   
>   
>   

Hi Jörg,  
  
schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf:  
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1  
Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?  
vielen Dank.  
Droomdre

crawler für Dokumente auf einer Webseite

2014-11-06T18:09:43Z

Funktioniert bei dir diesen Aufruf:
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1

Ja.

Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?

Da gibt es zwei Möglichkeiten:

/etc/wgetrc (Nur Mit root-Rechten zu bearbeiten, gilt für alle Benutzer, die es nicht "überladen")

oder

$HOME/.wgetrc (Lies: "PunktWgetrc") im Heimatverzeichnis des Benutzers für den das gelten soll. Bearbeiten mit gültigen Benutzerrechten.

Nimm den Editor Deiner Wahl. Im Übrigen hätte man wget auch weiter geholfen, das liefert ganz unten:

  
FILES  
       /etc/wgetrc  
           Default location of the global startup file.  
  
       .wgetrc  
           User startup file.

aber nicht diese kleine, toll funktionierende Erweiterung: Setzt man mit

  
~ export WGETRC=/tmp/tolleDatei

dann muss oder kann /tmp/tolleDatei bearbeitet werden, Die ~/.getrc wird dann nicht mehr beachtet. Das wüsstest Du aber wenn Du daran gefummelt hättest. Beachte das also nicht weiter.

Jörg Reinholz