Michael Schröpl: +Browser+Logik ?!? Daten auslesen

Beitrag lesen

Hi SI,

Problem bei direkten auslesen der Seite wie lwp oder so ist, dass dies eine
Seite ist bei der mann sich vorher wie php-Script anmelden muss (afaik dann ne
ne Session ist) und sich dann vie links durchhangelt auf die gewünschte Seite
, von der ich die Daten dann auslesen will.
dann tue das 'einfach'.
Es gibt ein Perl-Modul, welches Dir alle Links eines Dokuments extrahiert - HTML mußt Du nicht selber parsen.
Das Problem ist nciht das parsen sondern diese HTML-Seite zu kommen.

wieso? LWP hast Du explizit selbst erwähnt; Deine Session-ID ist in den geparseten Links bereits enthalten. Wo ist das Problem?
Du mußt halt mit Deinem Programm wirklich eine komplette Session (ab Login!) durchführen (also eine Folge von HTTP-Requests) und nicht bloß einzelne Seiten herauspicken.

Sollte Dein Session-Mechanismus eventuell nicht auf Query-Strings, sondern auf Cookies basieren, dann ändert sich nichts an meiner Aussage: Du verwendest dann eben LWP::UserAgent statt LWP::Simple.
Falls mindestens einer Deiner Requests nicht GET, sondern POST ist, mußt Du letzteres ohnehin tun.

Viele Grüße
      Michael

--
T'Pol: I apologize if I acted inappropriately.
V'Lar: Not at all. In fact, your bluntness made me reconsider some of my positions. Much as it has now.
(sh:| fo:} ch:] rl:( br:^ n4:( ie:% mo:) va:| de:/ zu:| fl:( ss:) ls:~ js:|)
Auch diese Signatur wird an korrekt konfigurierte Browser gzip-komprimiert übertragen.