dennis: Titel eines "fremden" Dokumentes auslesen

Hallo,

ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ... - ich komm' aber einfach nicht weiter.

Ich möchte den Titel eines Web-Dokumentes auslesen. Das Dokument soll aber frei bestimmt werden können.

Ich glaube, ich suche 2 Befehle, die folgendes tun:

  1. head-bereich eines beliebigen Dokuments in Variable speichern
      (vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)

  2. aus dieser variable den title-tag-bereich auslesen.

Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???

  1. hey,

    nachdem du du eine site ...

    a) extern per lwp

    b) mit open() - close()

    ... eingelesen hast suchst du einfach nach dem titel:

    $document = join('',@array);

    @array enthält das document

    $title = $1 if($document =~ /<title>(.*)</title>/ig);

    viele grüße, peety

  2. Hi,

    ich hoffe, dass meine Frage nicht <i>zu</i> dumm ist ...

    das kommt drauf an, ob Du vorherige Recherche mit zu der Frage zählst oder nicht ;-) Das Thema ist in diesem Forum nicht unbekannt, wenn auch vielleicht auf abstrakterer Ebene und nicht so speziell. Die Archiv-Suche sollte Dir alle Informationen liefern, die Du brauchst.

    1. head-bereich eines beliebigen Dokuments in Variable speichern
        (vielleicht get("www.selfhtml.de/index.html") - oder ähnlich ???)

    Extrem nah. Es existiert eine get()-Methode als Teil eines Dir bekannten Moduls. Überlege Dir bitte, was eine URL ist, und insbesondere warum in Deinem Beispiel-Code _keine_ URL steht. Die Methode holt übrigens eine komplette Ressource von einem Server; sie beherrscht kein HTML und kann daher auch keinen <head> oder gar <title> erkennen.

    1. aus dieser variable den title-tag-bereich auslesen.

    Entweder machst Du das, indem Du den HTML-Code analysierst (auch dazu gibt es Module), oder - was in Deinem Fall vermutlich reicht - über die simple Mustererkennung "alles zwischen <title> und </title>". Dazu sind Regular Expressions gut geeignet.

    Eigentlich sollte mit dort doch das lwp-Modul weiterhelfen?? oder nicht???

    Ja, aber nur für den ersten Teil.

    Cheatah