tag:forum.selfhtml.org,2005:/selfcrawler für Dokumente auf einer Webseite – SELFHTML-Forum2014-11-06T18:09:43Zhttps://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624103#m1624103droomdre2014-11-04T09:12:10Z2014-11-04T09:12:10Zcrawler für Dokumente auf einer Webseite<p>Hi folks,</p>
<p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br>
Kennt jdn ein Tool?</p>
<p>Mit freundlichen Grüßen.<br>
Droomdre</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624104#m1624104Mitleser2014-11-04T09:32:47Z2014-11-04T09:32:47Zcrawler für Dokumente auf einer Webseite<blockquote>
<p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br>
Kennt jdn ein Tool?</p>
</blockquote>
<p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624105#m1624105Jörg Reinholz2014-11-04T12:05:02Z2014-11-04T12:05:02Zcrawler für Dokumente auf einer Webseite<blockquote>
<blockquote>
<p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br>
Kennt jdn ein Tool?</p>
</blockquote>
<p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p>
</blockquote>
<p>Richtig!</p>
<p>wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'</p>
<p>Für Windows:</p>
<p>[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.</p>
<p>Ich hoffe, das reicht für "einfach installieren".</p>
<p>Jörg Reinholz</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624106#m1624106droomdre2014-11-05T10:45:50Z2014-11-05T10:45:50Zcrawler für Dokumente auf einer Webseite<blockquote>
<blockquote>
<blockquote>
<p>ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.<br>
Kennt jdn ein Tool?</p>
</blockquote>
<p>Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.</p>
</blockquote>
<p>Richtig!</p>
<p>wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'</p>
<p>Für Windows:</p>
<p>[http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.</p>
<p>Ich hoffe, das reicht für "einfach installieren".</p>
<p>Jörg Reinholz</p>
</blockquote>
<p>vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.<br>
MfG.</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624107#m1624107Jörg Reinholz2014-11-05T11:17:51Z2014-11-05T11:17:51Zcrawler für Dokumente auf einer Webseite<blockquote>
<p>vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.</p>
</blockquote>
<p>Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.</p>
<p>Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.</p>
<blockquote>
<p>Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.</p>
</blockquote>
<p>Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:</p>
<p>wget -d --delete-after http://deineDomain</p>
<p>"Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p>
<p>Jörg Reinholz</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624108#m1624108Jörg Reinholz2014-11-05T11:31:42Z2014-11-05T11:31:42Zcrawler für Dokumente auf einer Webseite<blockquote>
<p>Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p>
</blockquote>
<p>Lass doch mal den Pipe zu grep weg und schau nach, was kommt.</p>
<p>Jörg Reinholz</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624109#m1624109droomdre2014-11-05T12:40:59Z2014-11-05T12:40:59Zcrawler für Dokumente auf einer Webseite<blockquote>
<blockquote>
<p>Lass doch mal den Pipe zu wget weg und schau nach, was kommt.</p>
</blockquote>
<p>Lass doch mal den Pipe zu grep weg und schau nach, was kommt.</p>
<p>Jörg Reinholz</p>
</blockquote>
<p>Ich bekomme das:<br>
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1<br>
--13:39:17-- http://www.klinikamrosengarten.de/<br>
=> `www.klinikamrosengarten.de/index.html'<br>
Resolving www.klinikamrosengarten.de... 46.30.58.110<br>
Connecting to www.klinikamrosengarten.de|46.30.58.110|:80... connected.<br>
HTTP request sent, awaiting response... 200 OK<br>
Length: unspecified [text/html]<br>
200 OK</p>
<p>www.klinikamrosengarten.de/index.html: No such file or directory</p>
<p>FINISHED --13:39:17--<br>
Downloaded: 0 bytes in 0 files</p>
<p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624110#m1624110Jörg Reinholz2014-11-05T17:09:19Z2014-11-05T17:09:19Zcrawler für Dokumente auf einer Webseite<blockquote>
<p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p>
</blockquote>
<p>Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.</p>
<p>Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.</p>
<p>Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:</p>
<pre><code class="block language-wgetrc">
robots = off
user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0
</code></pre>
<p>Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...</p>
<p>Jörg Reinholz</p>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624111#m1624111droomdre2014-11-06T12:08:20Z2014-11-06T12:08:20Zcrawler für Dokumente auf einer Webseite<blockquote>
<blockquote>
<p>Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.</p>
</blockquote>
<p>Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.</p>
<p>Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.</p>
<p>Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:</p>
<pre><code class="block language-wgetrc"></code></pre>
</blockquote>
<blockquote>
<p>robots = off<br>
user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0</p>
</blockquote>
<pre><code class="block">
>
> Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...
>
>
> Jörg Reinholz
>
>
>
Hi Jörg,
schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf:
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1
Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?
vielen Dank.
Droomdre
</code></pre>
https://forum.selfhtml.org/self/2014/nov/4/crawler-fuer-dokumente-auf-einer-webseite/1624112#m1624112Jörg Reinholz2014-11-06T18:09:43Z2014-11-06T18:09:43Zcrawler für Dokumente auf einer Webseite<blockquote>
<p>Funktioniert bei dir diesen Aufruf:<br>
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1</p>
</blockquote>
<p>Ja.</p>
<blockquote>
<p>Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?</p>
</blockquote>
<p>Da gibt es zwei Möglichkeiten:</p>
<p>/etc/wgetrc (Nur Mit root-Rechten zu bearbeiten, gilt für alle Benutzer, die es nicht "überladen")</p>
<p>oder</p>
<p>$HOME/.wgetrc (Lies: "PunktWgetrc") im Heimatverzeichnis des Benutzers für den das gelten soll. Bearbeiten mit gültigen Benutzerrechten.</p>
<p>Nimm den Editor Deiner Wahl. Im Übrigen hätte man wget auch weiter geholfen, das liefert ganz unten:</p>
<pre><code class="block language-man">
FILES
/etc/wgetrc
Default location of the global startup file.
.wgetrc
User startup file.
</code></pre>
<p><a href="http://www.gnu.org/software/wget/manual/html_node/Wgetrc-Location.html#Wgetrc-Location" rel="nofollow noopener noreferrer">aber nicht diese kleine, toll funktionierende Erweiterung</a>: Setzt man mit</p>
<pre><code class="block language-sh">
~ <span class="token builtin class-name">export</span> <span class="token assign-left variable">WGETRC</span><span class="token operator">=</span>/tmp/tolleDatei
</code></pre>
<p>dann muss oder kann /tmp/tolleDatei bearbeitet werden, Die ~/.getrc wird dann nicht mehr beachtet. Das wüsstest Du aber wenn Du daran gefummelt hättest. Beachte das also nicht weiter.</p>
<p><a href="http://www.fastix.org" rel="nofollow noopener noreferrer">Jörg Reinholz</a></p>