403 bei wget von Margin-Auto, 27.11.2006 14:09

403 bei wget

Margin-Auto 27.11.2006 13:18

browser

Hi,

ich möchte einen Teil einer Webpräsenz (HTML und Bilder) für den lokalen Gebrauch auf meine Platte spiegeln.

Versucht habe ich es mit

wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

Das liefert aber die Ausgabe

HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
13:14:06 FEHLER 403: Forbidden.

Wird da wget explizit vom Server ausgesperrt (via htaccess oder so) oder habe ich einen Fehler bei der Bedienung gemacht?

TIA

Margin-Auto

Beitrag melden

– Informationen zu den Bewertungsregeln

403 bei wget
seth_not@home 27.11.2006 13:37

browser
– Informationen zu den Bewertungsregeln
gudn tach Margin-Auto!

wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

Das liefert aber die Ausgabe

HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
13:14:06 FEHLER 403: Forbidden.

aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.

prost
seth
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. 403 bei wget
  
  Margin-Auto 27.11.2006 13:40
  
  browser
  – Informationen zu den Bewertungsregeln
  Hi,
  
  aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
  evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.
  
  Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html und ich habe auch keine Probleme, die per Browser oder in perl per LWP::Simple aufzurufen.
  Was müsste ich denn dann bei -U angeben? (M)eine kompletten Browser-ID, also
  
  Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.7) Gecko/20060911 SUSE/1.0.5-1.1 SeaMonkey/1.0.5
  
  ??
  
  TIA
  
  Margin-Auto
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. 403 bei wget
    
    seth_not@home 27.11.2006 13:59
    
    browser
    
    – Informationen zu den Bewertungsregeln
    gudn tach!
    
    evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.
    
    Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html [...]
    Was müsste ich denn dann bei -U angeben?
    
    ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
    wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.
    
    prost
    seth
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. 403 bei wget
      
      Margin-Auto 27.11.2006 14:09
      
      browser
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
      wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.
      
      Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
      Was mache ich falsch?
      
      TIA
      
      Margin-Auto
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. 403 bei wget
        
        seth_not@home 27.11.2006 14:29
        
        browser
        
        – Informationen zu den Bewertungsregeln
        
        gudn tach!
        
        Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
        Was mache ich falsch?
        
        also bei mir klappte
        wget -e robots=off -Uschweinekotze -kprl 2 -w 2 -Dpkjs.de http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html
        
        der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.
        
        prost
        seth
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        403 bei wget
        
        Margin-Auto 27.11.2006 19:45
        
        browser
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        -Uschweinekotze
        
        ROTFL!
        
        der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.
        
        Danke. Mit --user-agent=Mozilla/5.0 hat es jetzt funktioniert.
        
        Margin-Auto
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
403 bei wget
Margin-Auto 27.11.2006 13:37

browser
– Informationen zu den Bewertungsregeln
Gnargh,

wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

natürlich steht da in beiden Fällen die gleiche Domain, also example.de

Margin-Auto
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Margin-Auto: 403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget

403 bei wget