Peter: Website downloaden mit Login-Alternative zu httrack

Hallo Leute,

ich versuche, eine Offline-Kopie einer Website zu erstellen, benutze dafür HtTrack. Leider funktioniert dies nicht gut, da die Website einen Login erfordert.

Das wird formell von HttTrack zwar unterstüztz, funktioniert bei mir leider trotzdem nicht, habe alle Tipps durch, von Cookie-Duplikat, Proxy etc., die im Internet zu finden sind.

Gibt es eine Alternative, vielleicht sogar ein Plugin?

Danke für einen Rat!

Gruß Peter

  1. Definiere das „da die Website einen Login erfordert“.

    Da gibt es so einige verschiedene Arten.

    1. Hallo,

      Username und Passwort werden in einem Cookie gespeichert.

      1. Username und Passwort werden in einem Cookie gespeichert.

        Das ist entweder nicht korrekt/vollständig und/oder „nicht der Ernst“ des Anbieters: Weil es ausgesprochen dumm wäre. Außerdem wäre die Website dann (auch rekursiv) mit wget, curl & co. ganz einfach herunterladbar.

        Auf Deutsch: Wenn es wahr und richtig wäre stände Deine Frage nicht hier.

        Schau in den Entwicklertools Deines Browsers (dort beim Netzwerkverkehr) nach, was bei den Requests sowohl bei der Anmeldung als auch bei den Folgeseiten vom Browser mit den Headern tatsächlich gesendet wird. Und zwar alles: Cookies, User-Agent, …

        Und ergänze Dein „Leider funktioniert dies nicht gut“ durch eine Aussage, der man mehr entnehmen kann als „geht nicht immer“. Wie wäre es denn mit den Resultaten von Fehlschlägen (Request-Header, Antwort-Header, Kurzbeschreibung der resultierenden Seite.)

        1. Hallo,

          mittels eines FF-Plugins kann ich den Cookie-Inhalt auslesen und extern abspeichern; HttTrack berücksichtigt diesen leider scheinbar nicht, es gibt Anleitungen dafür im Internet.

          Die Einwilligung des Seitenbetreibers liegt mir vor.

          1. Hallo,

            mittels eines FF-Plugins kann ich den Cookie-Inhalt auslesen und extern abspeichern;

            Toll.

            Wenn Du keine weiteren oder neuen, konkreten Informationen hast, kann ich nichts Neues beitragen. Aus meiner Sicht ist alles „gesagt“.

            1. Mehr Infos habe ich nicht, meine Frage war ja konkret nach einer Alternative. Kennst Du eine oder nicht?

              1. Mehr Infos habe ich nicht, meine Frage war ja konkret nach einer Alternative.

                Das „konkret“ ist insofern unrichtig, als das unklar war und immer noch ist, was diese Alternative denn bitte konkret können soll und was davon denn bitte genau HtTrack (angeblich, ich muss mich in dieser Frage mit allerhand Bauchschmmerzen auf Deine Behauptung verlassen) nicht kann. Du nennst noch nicht einmal Dein Betriebssystem, nicht den auftretenden Fehler, nicht die Webseite - aber Deine Frage nennst Du allen Ernstes „konkret“. „Hm!“

                Ich nehme für rekursive Downloads das „schlichte“ wget. Selbiges gibt es auch für Windows und Mac...

                Schau Dir von wget die Optionen -m, -r, -k und dann die Möglichkeiten, Browser (User-Agent), Cookies, POST / GET - Daten und andere Header (Referer!) zu manipulieren, an. Damit geht alles was man sich nur vorstellen kann.

                Alternativ kannst Du ja das oben verlinkte Handbuch zu HtTrack noch mal bezüglich der selben Items lesen statt was Neues zu probieren. Vermutlich ist nicht HtTrack sondern zu geringes Wissen um das HTTP-Protokoll, Server und serverseitige Anwendungen die Ursache für die Fehlschläge.

                Noch ein Hinweis: Was mich (und andere, explizit auch Rolf B) betrifft bist Du mit dem Problem schon bei Spezialisten - sagst halt nur nicht wo es wie weh tut, sondern immer nur „mir tut was weh - frag mich nicht, untersuche mich nicht, fass mich nicht an - gib mir einfach was dagegen“.

                1. Ich suche ein Plugin, dass eine Website komplett herunterlädt, nachdem ich mich auf derselbigen eingeloggt habe, also der Login bereits über den Browser besteht. Sowohl die Website als auch das Betriebssystem sind in dem Kontext irrelevant. Der Fehler besteht darin, dass die Website zwar heruntergeladen wird, jedoch ohne, eingeloggt zu sein. Daher nochmal meine Frage, kennst Du eine Alternative?

                  1. Ich suche ein Plugin

                    „Plugin“ erstmals erwähnt ... Wozu brauch ich bitte ein „Plugin“ wenn ich sowas nach einer kurzen Header-Analyse mit einem Kommandozeilen-Tool effektiver erledigen kann?

                    Daher nochmal meine Frage, kennst Du eine Alternative?

                    Nochmal: wget oder das Handbuch zu httrack nochmal lesen. Das sind schon zwei.

                    1. ich zitiere aus meinem ersten Post "Gibt es eine Alternative, vielleicht sogar ein Plugin?"

                      1. Sowohl die Website als auch das Betriebssystem sind in dem Kontext irrelevant.

                        Das stimmt definitiv nicht:

                        1. Mit Kenntnis der Webseite (vielleicht kann man sich dort kostenlos anmelden) hätte ich mir womöglich die Header ansehen und Dir Tipps geben können.

                        2. Viele Browser-Plugins stehen gerade nicht für jedes Betriebssystem zur Verfügung.

                        Warum meckerst und streitest Du eigentlich herum, statt einfach die Informationen zu liefern?

                        Der Fehler besteht darin, dass die Website zwar heruntergeladen wird, jedoch ohne, eingeloggt zu sein.

                        Ich rate mal: Du sendest das falsche oder kein Cookie oder keinen zur Session passenden Referer oder den falschen User-Agent. HtTrack kann Cookies senden und sogar empfangen und beim nächsten Request wieder senden, Referer und User-Agent simulieren und die robots.txt missachten - also brauchst Du keine Alternative, willst nur die HTTP-Header nicht analysieren.

                        Tipp: Nimm die Header eines Requests nach einer erfolgreichen Anmeldung und schließe den zur Abmeldung führenden Request (also die URL des mutmaßlich vorhandenen Abmelden-Links) aus.

                        1. Hallo Raketenwilli,

                          httrack kann wohl auch Logins abfangen (--catchurl hab ich gerade gefunden) und den Zustand nach Login irgendwie festhalten, so dass man damit dann weitermachen kann. Aber ob das mit jeder Website funktioniert, ist sicher zu bezweifeln.

                          Da hilft dann wohl nur die Analyse der ht-log Datei, ggf. Mitschneiden des Netzwerkverkehrs. Oder ein anderes Tool, das wir aber beide nicht zu kennen scheinen.

                          Rolf

                          --
                          sumpsi - posui - obstruxi
                        2. Dieser Beitrag wurde gesperrt: Eskalation droht

                          Habe ich irgendwo rumgemeckert? Vielleicht hat dir ja dein ewiger Kampf gegen die Mühlen der Justiz ein bisschen die Birne vernebelt^^

                          Meine Frage hast du immer noch nicht beantwortest: Kennst Du ein passendes Plugin,für welches Betriebssystem auch immer, das in Frage kommen könnte?

                          1. Hallo Peter,

                            na klar, warum sachlich sein, wenn's auch persönlich geht. Damit höre bitte gleich wieder auf, und deswegen dreh ich hier jetzt den Schlüssel rum.

                            Das "meckern und streiten" könnte man unterstellen, wenn man betrachtet, dass Du (gefühlt) zehnfach nach einer Alternative fragst, obwohl Du die klare Ansage bekommen hast, dass wir auf Grund des Kenntnisstandes keine liefern können.

                            Oder einfach keine kennen, weil wir ein Tool mit den Funktionen, die Du suchst, bisher nicht gebraucht haben.

                            Rolf

                            --
                            sumpsi - posui - obstruxi
  2. Hallo Peter,

    eine ordentlich programmierte Webseite mit Formular-Login erzeugt typischerweise einen Session-Cookie. Im Cookie steht nur eine Session-ID, die auf einen am Server befindlichen Speicherblock verweist. Ist die Session beendet worden (logout oder timeout), hilft auch der Cookie nicht mehr.

    D.h. wenn Du die Seite downloaden willst, musst Du den Login nachbilden, den Session-Cookie speichern und damit weitermachen.

    Wichtig: Bevor Du eine Website duplizierst und mit dem Duplikat irgendwas tust, was nicht 100% privat bei Dir bleibt, kläre mit dem Betreiber der Seite ab, ob dieses Tun überhaupt erlaubt ist. Und je nach Inhalt der Seite kann auch das illegal sein, wenn Urheberrecht betroffen ist.

    Rolf

    --
    sumpsi - posui - obstruxi
    1. eine ordentlich programmierte Webseite mit Formular-Login erzeugt typischerweise einen Session-Cookie. Im Cookie steht nur eine Session-ID, die auf einen am Server befindlichen Speicherblock verweist. Ist die Session beendet worden (logout oder timeout), hilft auch der Cookie nicht mehr.

      Oder wenn der Betreiber die Seite so programmiert hat, dass die Session-ID nach einer gewissen Zeit oder nach x Requests erneuert wird... Dann muss man das Download-Tool dahin bringen, auf die geänderte, via Cookie gesendete, Session-ID zu reagieren.

  3. Hallo Leute,

    ich habe inzwischen eine pragmatische Lösung gefunden und poste sie für den Fall, dass jemand anderes mal ein ähnliches Anliegen haben sollte.

    Es gibt ein anderes Programm namens "Offline Explorer", das findet man bei Google als Portable-Version. In diesem Programm kann man sich im internen Browser auf der Website einloggen, die man abspeichern möchte, die Login-Session wird dann automatisch übernommen. So weit, so gut. Die heruntergeladene Version ist allerdings anschließend nur über den Localhost abrufbar und ist nicht portabel, ob man das umstellen kann, weiß ich nicht.

    Ich habe daher htTrack über die Version laufen lassen, die man über den Localhost abrufen kann und jetzt habe ich eine statische Version, die man komplett offline lesen und als Archiv weitergeben kann (ähnlich der früheren Selfhtml-Versionen).

    Vermutlich geht es auch einfacher, allerdings handelt es sich eher um ein einmaliges Ereignis, daher ist es in Ordnung und prinzipiell auch wiederholbar.

    Gruß Peter