ortenau-s-bahner: LWP::Simple::get funktioniert nicht bei allen urls

Beitrag lesen

Hi,

und wie kann ich das Umgehen? Eine Subklasse von UserAgent bilden?

Natürlich kommt jetzt erst mal der obligatorische Hinweis, dass Google sicherlich seine Gründe hat, in bestimmten Bereichen keine Bots zuzulassen und du das respektieren solltest.

Wenn du dennoch Bot-en willst, kannst du über Socket eine Verbindung aufbauen. Da kannst du dann als UA-Kennung schicken, was du willst. Hab so was auch mal ausprobiert, weil http://reiseauskunft.bahn.de ähnlich empfindlich ist. Einfach Verbindung auf Port 80 herstellen und dann mit GET die Datei abrufen. Für Details hilft hoffentlich http://www.w3.org/Protocols/rfc2616/rfc2616.html
Ob dir UserAgent weiter hilft, weiss ich nicht, IIRC zieht der schon den Schwanz ein, wenn er über robots.txt abgeblockt wird.

HTH

ortenau-s-bahner

--
ss:} zu:$ ls:} fo:| de:] va:) ch:? sh:( n4:# rl:? br:> js:| ie:( fl:{ mo:)