Titel eines "fremden" Dokumentes auslesen
dennis
- cgi
Hallo,
ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ... - ich komm' aber einfach nicht weiter.
Ich möchte den Titel eines Web-Dokumentes auslesen. Das Dokument soll aber frei bestimmt werden können.
Ich glaube, ich suche 2 Befehle, die folgendes tun:
head-bereich eines beliebigen Dokuments in Variable speichern
(vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)
aus dieser variable den title-tag-bereich auslesen.
Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???
hey,
nachdem du du eine site ...
a) extern per lwp
b) mit open() - close()
... eingelesen hast suchst du einfach nach dem titel:
$document = join('',@array);
$title = $1 if($document =~ /<title>(.*)</title>/ig);
viele grüße, peety
Hi,
ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ...
das kommt drauf an, ob Du vorherige Recherche mit zu der Frage zählst oder nicht ;-) Das Thema ist in diesem Forum nicht unbekannt, wenn auch vielleicht auf abstrakterer Ebene und nicht so speziell. Die Archiv-Suche sollte Dir alle Informationen liefern, die Du brauchst.
- head-bereich eines beliebigen Dokuments in Variable speichern
(vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)
Extrem nah. Es existiert eine get()-Methode als Teil eines Dir bekannten Moduls. Überlege Dir bitte, was eine URL ist, und insbesondere warum in Deinem Beispiel-Code _keine_ URL steht. Die Methode holt übrigens eine komplette Ressource von einem Server; sie beherrscht kein HTML und kann daher auch keinen <head> oder gar <title> erkennen.
- aus dieser variable den title-tag-bereich auslesen.
Entweder machst Du das, indem Du den HTML-Code analysierst (auch dazu gibt es Module), oder - was in Deinem Fall vermutlich reicht - über die simple Mustererkennung "alles zwischen <title> und </title>". Dazu sind Regular Expressions gut geeignet.
Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???
Ja, aber nur für den ersten Teil.
Cheatah