CharlesM: Anfängerfrage: Perl-Modul, um WWW-Seiten zu parsen

Beitrag lesen

Meine Perl-Kenntnisse sind bescheiden bis mittel. Manchem mag diese Frage daher sehr blöde vorkommen. Egal.

Ich muss des öfteren eine Reihe von Internet-Seiten (ca. 50-60) auf unterschiedlichen Servern und Domains besuchen, den Text der Seiten als Nur-Text erfassen und das Ganze zu einem Report zusammenfassen. Es geht um eine sozialwissenschaftliche Analyse von Internet-Seiten zum Thema Gesundheit.

Bisher habe ich das immer von Hand gemacht: Im Browser die Linkliste abgearbeitet, Seiten aufgerufen, gespeichert, später dann die HTML-Tags mit einem Perl-Skript entfernt und die Texte in eine Datei hintereinander gepackt. Das Ganze steht mir noch fünf- oder sechsmal bevor, so dass ich dachte: Das müsste man doch automatisieren können.
Das Problem: Ich habe null Ahnung, wie ich in einem Perl-Skript - das zuhause auf dem Rechner laufen soll - eine Internet-Verbindung herstelle und unterschiedliche URLs damit aufrufe. Gibt's dafür igendwo Infos, Erläuterungen, Perl-Module?
Gerd