tag:forum.selfhtml.org,2005:/self crawler für Dokumente auf einer Webseite – SELFHTML-Forum 2014-11-06T18:09:43Z https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624103#m1624103 droomdre 2014-11-04T09:12:10Z 2014-11-04T09:12:10Z crawler für Dokumente auf einer Webseite <p>Hi folks,</p> <p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br> Kennt jdn ein Tool?</p> <p>Mit freundlichen Grüßen.<br> Droomdre</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624104#m1624104 Mitleser 2014-11-04T09:32:47Z 2014-11-04T09:32:47Z crawler für Dokumente auf einer Webseite <blockquote> <p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br> Kennt jdn ein Tool?</p> </blockquote> <p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624105#m1624105 Jörg Reinholz 2014-11-04T12:05:02Z 2014-11-04T12:05:02Z crawler für Dokumente auf einer Webseite <blockquote> <blockquote> <p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br> Kennt jdn ein Tool?</p> </blockquote> <p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p> </blockquote> <p>Richtig!</p> <p>wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'</p> <p>Für Windows:</p> <p>[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.</p> <p>Ich hoffe, das reicht für "einfach installieren".</p> <p>Jörg Reinholz</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624106#m1624106 droomdre 2014-11-05T10:45:50Z 2014-11-05T10:45:50Z crawler für Dokumente auf einer Webseite <blockquote> <blockquote> <blockquote> <p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br> Kennt jdn ein Tool?</p> </blockquote> <p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p> </blockquote> <p>Richtig!</p> <p>wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'</p> <p>Für Windows:</p> <p>[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.</p> <p>Ich hoffe, das reicht für "einfach installieren".</p> <p>Jörg Reinholz</p> </blockquote> <p>vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.<br> MfG.</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624107#m1624107 Jörg Reinholz 2014-11-05T11:17:51Z 2014-11-05T11:17:51Z crawler für Dokumente auf einer Webseite <blockquote> <p>vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.</p> </blockquote> <p>Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.</p> <p>Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.</p> <blockquote> <p>Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.</p> </blockquote> <p>Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:</p> <p>wget -d --delete-after http://deineDomain</p> <p>"Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p> <p>Jörg Reinholz</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624108#m1624108 Jörg Reinholz 2014-11-05T11:31:42Z 2014-11-05T11:31:42Z crawler für Dokumente auf einer Webseite <blockquote> <p>Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p> </blockquote> <p>Lass doch mal den Pipe zu grep weg und schau nach, was kommt.</p> <p>Jörg Reinholz</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624109#m1624109 droomdre 2014-11-05T12:40:59Z 2014-11-05T12:40:59Z crawler für Dokumente auf einer Webseite <blockquote> <blockquote> <p>Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p> </blockquote> <p>Lass doch mal den Pipe zu grep weg und schau nach, was kommt.</p> <p>Jörg Reinholz</p> </blockquote> <p>Ich bekomme das:<br> wget -r --spider http://www.klinikamrosengarten.de/ 2>&1<br> --13:39:17--  http://www.klinikamrosengarten.de/<br>            => `www.klinikamrosengarten.de/index.html'<br> Resolving www.klinikamrosengarten.de... 46.30.58.110<br> Connecting to www.klinikamrosengarten.de|46.30.58.110|:80... connected.<br> HTTP request sent, awaiting response... 200 OK<br> Length: unspecified [text/html]<br> 200 OK</p> <p>www.klinikamrosengarten.de/index.html: No such file or directory</p> <p>FINISHED --13:39:17--<br> Downloaded: 0 bytes in 0 files</p> <p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624110#m1624110 Jörg Reinholz 2014-11-05T17:09:19Z 2014-11-05T17:09:19Z crawler für Dokumente auf einer Webseite <blockquote> <p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p> </blockquote> <p>Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.</p> <p>Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.</p> <p>Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:</p> <pre><code class="block language-wgetrc"> robots = off user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0 </code></pre> <p>Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...</p> <p>Jörg Reinholz</p> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624111#m1624111 droomdre 2014-11-06T12:08:20Z 2014-11-06T12:08:20Z crawler für Dokumente auf einer Webseite <blockquote> <blockquote> <p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p> </blockquote> <p>Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.</p> <p>Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.</p> <p>Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:</p> <pre><code class="block language-wgetrc"></code></pre> </blockquote> <blockquote> <p>robots = off<br> user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0</p> </blockquote> <pre><code class="block"> > > Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ... > > > Jörg Reinholz > > > Hi Jörg, schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf: wget -r --spider http://www.klinikamrosengarten.de/ 2>&1 Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc? vielen Dank. Droomdre </code></pre> https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624112#m1624112 Jörg Reinholz 2014-11-06T18:09:43Z 2014-11-06T18:09:43Z crawler für Dokumente auf einer Webseite <blockquote> <p>Funktioniert bei dir diesen Aufruf:<br> wget -r --spider http://www.klinikamrosengarten.de/ 2>&1</p> </blockquote> <p>Ja.</p> <blockquote> <p>Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?</p> </blockquote> <p>Da gibt es zwei Möglichkeiten:</p> <p>/etc/wgetrc (Nur Mit root-Rechten zu bearbeiten, gilt für alle Benutzer, die es nicht "überladen")</p> <p>oder</p> <p>$HOME/.wgetrc (Lies: "PunktWgetrc")  im Heimatverzeichnis des Benutzers für den das gelten soll. Bearbeiten mit gültigen Benutzerrechten.</p> <p>Nimm den Editor Deiner Wahl. Im Übrigen hätte man wget auch weiter geholfen, das liefert ganz unten:</p> <pre><code class="block language-man"> FILES        /etc/wgetrc            Default location of the global startup file.        .wgetrc            User startup file. </code></pre> <p><a href="http://www.gnu.org/software/wget/manual/html_node/Wgetrc-Location.html#Wgetrc-Location" rel="nofollow noopener noreferrer">aber nicht diese kleine, toll funktionierende Erweiterung</a>: Setzt man mit</p> <pre><code class="block language-sh"> ~ <span class="token builtin class-name">export</span> <span class="token assign-left variable">WGETRC</span><span class="token operator">=</span>/tmp/tolleDatei </code></pre> <p>dann muss oder kann /tmp/tolleDatei bearbeitet werden, Die ~/.getrc wird dann nicht mehr beachtet. Das wüsstest Du aber wenn Du daran gefummelt hättest. Beachte das also nicht weiter.</p> <p><a href="http://www.fastix.org" rel="nofollow noopener noreferrer">Jörg Reinholz</a></p>