403 bei wget
Margin-Auto
- browser
Hi,
ich möchte einen Teil einer Webpräsenz (HTML und Bilder) für den lokalen Gebrauch auf meine Platte spiegeln.
Versucht habe ich es mit
wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html
Das liefert aber die Ausgabe
HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
13:14:06 FEHLER 403: Forbidden.
Wird da wget explizit vom Server ausgesperrt (via htaccess oder so) oder habe ich einen Fehler bei der Bedienung gemacht?
TIA
Margin-Auto
gudn tach Margin-Auto!
wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html
Das liefert aber die Ausgabe
HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
13:14:06 FEHLER 403: Forbidden.
aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.
prost
seth
Hi,
aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.
Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html und ich habe auch keine Probleme, die per Browser oder in perl per LWP::Simple aufzurufen.
Was müsste ich denn dann bei -U angeben? (M)eine kompletten Browser-ID, also
Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.7) Gecko/20060911 SUSE/1.0.5-1.1 SeaMonkey/1.0.5
??
TIA
Margin-Auto
gudn tach!
evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.
Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html [...]
Was müsste ich denn dann bei -U angeben?
ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.
prost
seth
Hi,
ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.
Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
Was mache ich falsch?
TIA
Margin-Auto
gudn tach!
Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
Was mache ich falsch?
also bei mir klappte
wget -e robots=off -Uschweinekotze -kprl 2 -w 2 -Dpkjs.de http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html
der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.
prost
seth
Hi,
-Uschweinekotze
ROTFL!
der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.
Danke. Mit --user-agent=Mozilla/5.0 hat es jetzt funktioniert.
Margin-Auto
Gnargh,
wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html
natürlich steht da in beiden Fällen die gleiche Domain, also example.de
Margin-Auto