droomdre: crawler für Dokumente auf einer Webseite

Hi folks,

ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
Kennt jdn ein Tool?

Mit freundlichen Grüßen.
Droomdre

  1. ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
    Kennt jdn ein Tool?

    Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

    1. ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
      Kennt jdn ein Tool?

      Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

      Richtig!

      wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

      Für Windows:

      [http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

      Ich hoffe, das reicht für "einfach installieren".

      Jörg Reinholz

      1. ich suche nach einer Lösung, die ich einfach installieren kann und womit ich alle PDFs herausfinden kann, die aktuell auf meiner Seite sichtbar sind. Mir reicht eine Auflistung oder wenn es anders nicht geht die Dateien selbst.
        Kennt jdn ein Tool?

        Mit wget sollte das machbar sein, die passenden Paramter aus dem Manual zusammenbauen.

        Richtig!

        wget -r --spider http://example.org 2>&1 | grep -e '.pdf$'

        Für Windows:

        [http://sourceforge.net/projects/unxutils/files/latest/download/@title=wget, grep und anderes nützliche] - aus der UnxUtils.zip entpacken und mit Admin-Rechten alle Dateien aus den im Zip-File enhaltenen Ordnern (\bin und \usr\local\wbin) mit der Endung ".exe" direkt in einen Ordner im Suchpfad (z.B. C:\windows) verschieben.

        Ich hoffe, das reicht für "einfach installieren".

        Jörg Reinholz

        vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück. Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.
        MfG.

        1. vielen Dank beide und Reinholz für den Code. ich probiere es unter Linux und bekomme nichts zurück.

          Bei mir geht es aber prima. Alle irgendwo auf der Seite verlinkten(!) PDFs werden gefunden.

          Möglicherweise solltest Du zunächst mal prüfen, ob wget eventuell durch eine robots.txt ausgeschlossen ist und im Manual nachlesen, wie man wget dazu überredet, diese zu ignorieren.

          Die Ausführung beendet sofort nach Beginn, als hätte er nichts gefunden. Auf der Webseite sind aber einige PDFs, die er finden sollte.

          Eben deshalb. Ansonsten wäre es nützlich die Adresse genannt zu bekommen. Falls Du das nicht willst:

          wget -d --delete-after http://deineDomain

          "Sofort beendet" - Darüber hinaus könnte ergo ein Typo verantwortlich sein. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

          Jörg Reinholz

          1. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

            Lass doch mal den Pipe zu grep weg und schau nach, was kommt.

            Jörg Reinholz

            1. Lass doch mal den Pipe zu wget weg und schau nach, was kommt.

              Lass doch mal den Pipe zu grep weg und schau nach, was kommt.

              Jörg Reinholz

              Ich bekomme das:
              wget -r --spider http://www.klinikamrosengarten.de/ 2>&1
              --13:39:17--  http://www.klinikamrosengarten.de/
                         => `www.klinikamrosengarten.de/index.html'
              Resolving www.klinikamrosengarten.de... 46.30.58.110
              Connecting to www.klinikamrosengarten.de|46.30.58.110|:80... connected.
              HTTP request sent, awaiting response... 200 OK
              Length: unspecified [text/html]
              200 OK

              www.klinikamrosengarten.de/index.html: No such file or directory

              FINISHED --13:39:17--
              Downloaded: 0 bytes in 0 files

              Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

              1. Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

                Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.

                Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.

                Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:

                  
                robots = off  
                user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0  
                
                

                Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...

                Jörg Reinholz

                1. Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

                  Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.

                  Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.

                  Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:

                  robots = off
                  user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0

                  
                  >   
                  > Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...  
                  >   
                  >   
                  > Jörg Reinholz  
                  >   
                  >   
                  >   
                  
                  Hi Jörg,  
                    
                  schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf:  
                  wget -r --spider http://www.klinikamrosengarten.de/ 2>&1  
                  Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?  
                  vielen Dank.  
                  Droomdre
                  
                  1. Funktioniert bei dir diesen Aufruf:
                    wget -r --spider http://www.klinikamrosengarten.de/ 2>&1

                    Ja.

                    Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?

                    Da gibt es zwei Möglichkeiten:

                    /etc/wgetrc (Nur Mit root-Rechten zu bearbeiten, gilt für alle Benutzer, die es nicht "überladen")

                    oder

                    $HOME/.wgetrc (Lies: "PunktWgetrc")  im Heimatverzeichnis des Benutzers für den das gelten soll. Bearbeiten mit gültigen Benutzerrechten.

                    Nimm den Editor Deiner Wahl. Im Übrigen hätte man wget auch weiter geholfen, das liefert ganz unten:

                      
                    FILES  
                           /etc/wgetrc  
                               Default location of the global startup file.  
                      
                           .wgetrc  
                               User startup file.  
                    
                    

                    aber nicht diese kleine, toll funktionierende Erweiterung: Setzt man mit

                      
                    ~ export WGETRC=/tmp/tolleDatei  
                    
                    

                    dann muss oder kann /tmp/tolleDatei bearbeitet werden, Die ~/.getrc wird dann nicht mehr beachtet. Das wüsstest Du aber wenn Du daran gefummelt hättest. Beachte das also nicht weiter.

                    Jörg Reinholz