droomdre: crawler für Dokumente auf einer Webseite

Beitrag lesen

Die Seite ist in php und durch simulate statics wird ein html am Ende eingefügt.

Wie auch immer. Bei mir ging das gerade eben und machte die erwarteten Ausgaben.

Es werden am Ende zwei PDF's ohne Datum gelistet. Das sind die, die zwar verlinkt, aber nicht abrufbar waren.

Ich weiß jetzt nicht, was Dein "simulate statics" treibt - aber in der Theorie sollte das wget egal sein. In meiner wgetrc finden sich aber zwei veränderte Einstellungen:

robots = off
user-agent = Mozilla/5.0 (Windows rv:32.0) Gecko/20100101 Firefox/32.0


>   
> Als Spider folgt der einfach jedem Link in der abgeholten Ressource, Welche auf den gleichen Webhost verweist, versucht die Ressource abzuholen und darin Links zum gleichen Webhost zu finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost  finden, die er dann versucht abzuholen und darin Links zum gleichen Webhost zu finden ...  
>   
>   
> Jörg Reinholz  
>   
>   
>   

Hi Jörg,  
  
schon mal vielen Dank für deine Hilfe. Funktioniert bei dir diesen Aufruf:  
wget -r --spider http://www.klinikamrosengarten.de/ 2>&1  
Arbeitest du auch mit Linux? Wie verändere ich meine Einstellungen für wgetrc?  
vielen Dank.  
Droomdre