Titel eines "fremden" Dokumentes auslesen von Cheatah, 22.08.2002 16:11

SELF-Forum

Titel eines "fremden" Dokumentes auslesen

dennis 22.08.2002 15:41

– Informationen zu den Bewertungsregeln

Hallo,

ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ... - ich komm' aber einfach nicht weiter.

Ich möchte den Titel eines Web-Dokumentes auslesen. Das Dokument soll aber frei bestimmt werden können.

Ich glaube, ich suche 2 Befehle, die folgendes tun:

head-bereich eines beliebigen Dokuments in Variable speichern
(vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)
aus dieser variable den title-tag-bereich auslesen.

Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???

Beitrag melden

– Informationen zu den Bewertungsregeln

Titel eines "fremden" Dokumentes auslesen
peety 22.08.2002 16:10

cgi
– Informationen zu den Bewertungsregeln
hey,

nachdem du du eine site ...

a) extern per lwp

b) mit open() - close()

... eingelesen hast suchst du einfach nach dem titel:

$document = join('',@array);

@array enthält das document
$title = $1 if($document =~ /<title>(.*)</title>/ig);

viele grüße, peety
Beitrag melden

–
Informationen zu den Bewertungsregeln
Titel eines "fremden" Dokumentes auslesen
Cheatah 22.08.2002 16:11

cgi
– Informationen zu den Bewertungsregeln
Hi,

ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ...

das kommt drauf an, ob Du vorherige Recherche mit zu der Frage zählst oder nicht ;-) Das Thema ist in diesem Forum nicht unbekannt, wenn auch vielleicht auf abstrakterer Ebene und nicht so speziell. Die Archiv-Suche sollte Dir alle Informationen liefern, die Du brauchst.
1. head-bereich eines beliebigen Dokuments in Variable speichern
  (vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)
Extrem nah. Es existiert eine get()-Methode als Teil eines Dir bekannten Moduls. Überlege Dir bitte, was eine URL ist, und insbesondere warum in Deinem Beispiel-Code _keine_ URL steht. Die Methode holt übrigens eine komplette Ressource von einem Server; sie beherrscht kein HTML und kann daher auch keinen <head> oder gar <title> erkennen.
1. aus dieser variable den title-tag-bereich auslesen.
Entweder machst Du das, indem Du den HTML-Code analysierst (auch dazu gibt es Module), oder - was in Deinem Fall vermutlich reicht - über die simple Mustererkennung "alles zwischen <title> und </title>". Dazu sind Regular Expressions gut geeignet.

Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???

Ja, aber nur für den ersten Teil.

Cheatah
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

dennis: Titel eines "fremden" Dokumentes auslesen

Titel eines "fremden" Dokumentes auslesen

Titel eines "fremden" Dokumentes auslesen

Titel eines "fremden" Dokumentes auslesen

@array enthält das document

Titel eines "fremden" Dokumentes auslesen