Hallo,
für ein größeres Projekt muss ich einen Crawler in Python Programmieren. (..)
Die einmal geladenen Seiten sollen regelmäßig auf "noch erreichbar" und "noch aktuell" hin überprüft werden.
Da hat sich übrigens noch etwas dazu in meinen Bookmarks gefunden. Joe Gregorio hat sich vor einiger Zeit aufgemacht, die Python httplib durch eine bessere Bibliothek, httplib2 zu ersetzen. Diese versteht dann u.a. Caching und gestaltet das bequemer für den Benutzer, so dass dieser sich nicht um jeden Kleinkram kümmern muss. Er begleitet die Entwicklung auch mit Artikeln auf xml.com, in denen er die jeweiligen Bestandteile von HTTP ausführlicher vorstellt; bislang erschienen sind:
• Doing HTTP Caching Right
• httplib2: HTTP Persistence and Authentication
Allerdings: Das Ding befindet sich noch in der Entwicklung. Es gibt zwar Unit Tests, aber noch keine Dokumentation. Ich habe selber noch nicht damit rumgespielt; kann also keine Empfehlung geben. Aber vielleicht möchtest Du Dir die Bibliothek mal genauer anschauen.
Tim