httplib2 von Tim Tepaße, 12.04.2006 04:10

Beitrag lesen

httplib2

Tim Tepaße 12.04.2006 04:10

python

Hallo,

für ein größeres Projekt muss ich einen Crawler in Python Programmieren. (..)
Die einmal geladenen Seiten sollen regelmäßig auf "noch erreichbar" und "noch aktuell" hin überprüft werden.

Da hat sich übrigens noch etwas dazu in meinen Bookmarks gefunden. Joe Gregorio hat sich vor einiger Zeit aufgemacht, die Python httplib durch eine bessere Bibliothek, httplib2 zu ersetzen. Diese versteht dann u.a. Caching und gestaltet das bequemer für den Benutzer, so dass dieser sich nicht um jeden Kleinkram kümmern muss. Er begleitet die Entwicklung auch mit Artikeln auf xml.com, in denen er die jeweiligen Bestandteile von HTTP ausführlicher vorstellt; bislang erschienen sind:

• Doing HTTP Caching Right
• httplib2: HTTP Persistence and Authentication

Allerdings: Das Ding befindet sich noch in der Entwicklung. Es gibt zwar Unit Tests, aber noch keine Dokumentation. Ich habe selber noch nicht damit rumgespielt; kann also keine Empfehlung geben. Aber vielleicht möchtest Du Dir die Bibliothek mal genauer anschauen.

Tim

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Tim Tepaße: httplib2

Beitrag lesen

httplib2

HTTP HEAD und Last-Modified

httplib2

Implementierung in PHP