Margin-Auto: 403 bei wget

Hi,

ich möchte einen Teil einer Webpräsenz (HTML und Bilder) für den lokalen Gebrauch auf meine Platte spiegeln.

Versucht habe ich es mit

wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

Das liefert aber die Ausgabe

HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
13:14:06 FEHLER 403: Forbidden.

Wird da wget explizit vom Server ausgesperrt (via htaccess oder so) oder habe ich einen Fehler bei der Bedienung gemacht?

TIA

Margin-Auto

  1. gudn tach Margin-Auto!

    wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

    Das liefert aber die Ausgabe

    HTTP Anforderung gesendet, warte auf Antwort... 403 Forbidden
    13:14:06 FEHLER 403: Forbidden.

    aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
    evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.

    prost
    seth

    1. Hi,

      aber ueber einen browser kommst du auf diese seite? spricht was dagegen, dass du den url mal nennst?
      evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.

      Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html und ich habe auch keine Probleme, die per Browser oder in perl per LWP::Simple aufzurufen.
      Was müsste ich denn dann bei -U angeben? (M)eine kompletten Browser-ID, also

      Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.7) Gecko/20060911 SUSE/1.0.5-1.1 SeaMonkey/1.0.5

      ??

      TIA

      Margin-Auto

      1. gudn tach!

        evtl. wird der user-agent mitabgeprueft. den kannst du ja mit -U beliebig setzen.

        Die URL ist http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html [...]
        Was müsste ich denn dann bei -U angeben?

        ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
        wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.

        prost
        seth

        1. Hi,

          ich danke, dass dir http://www.delorie.com/gnu/docs/wget/wget_41.html weiterhelfen wird.
          wget beachtet, was in robots.txt steht. wie man das verhindert, steht ebenfalls im verlinkten dokument. verwende auch je nach groesse der website auch den parameter "--wait", um den server nicht zu sehr zu belasten.

          Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
          Was mache ich falsch?

          TIA

          Margin-Auto

          1. gudn tach!

            Danke für den Link. Ich habe jetzt --execute=robots=off sowie --wait=10 hinzugefügt, bekomme aber immer noch 403. Auch wenn ich das robots=off in Anführungszeichen setze, klappt es nicht :-(
            Was mache ich falsch?

            also bei mir klappte
            wget -e robots=off -Uschweinekotze -kprl 2 -w 2 -Dpkjs.de http://pkjs.de/bahn/Kursbuch1944/Kursbuchtitel.html

            der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.

            prost
            seth

            1. Hi,

              -Uschweinekotze

              ROTFL!

              der 403er wird vermutlich via htaccess (verbot von wget als UA) erzeugt und muss deswegen separat mit -Uirgendwas umgangen werden.

              Danke. Mit --user-agent=Mozilla/5.0 hat es jetzt funktioniert.

              Margin-Auto

  2. Gnargh,

    wget --recursive --level=10 --convert-links --page-requisites --domains=pkjs.de --no-parent http://www.example.de/dir/Datei.html

    natürlich steht da in beiden Fällen die gleiche Domain, also example.de

    Margin-Auto