Jan Hatterscheid: Alle Links einer HTML-Datei auslesen

Wie muesste ein Script aussehen, mit dem ich alle Links einer HTML-Datei auslesen und dann in einer log-datei (z.B. eine TXT-Datei) untereinanderschreiben koennte.

Vielen Dank für Hilfe!

Jan

  1. Hi,

    Wie muesste ein Script aussehen, mit dem ich alle Links einer HTML-Datei auslesen und dann in einer log-datei (z.B. eine TXT-Datei) untereinanderschreiben koennte.

    hier mal einen Schematischen Ueberblick, damit Du weisst wie das laufen koennte.

    1. Den Inhalt der .html Datei in eine Variable lesen (z.B. mit $file_content = fread(fopen("file", "r"), filesize("file")); ).

    2. Den string mit Regulaeren Ausdrueken nach <a href="blabla"> suchen lassen. Dabei blabla herausfiltern.

    3. Den erhaltenen Array in eine Datei schreiben.

    Jan

    dito.

    1. Hi Jan,

      Du hast Dich ja sehr für PHP in dem anderen Thread eingesetzt. Und nun dies.

      hier mal einen Schematischen Ueberblick, damit Du weisst wie das laufen koennte.

      1. Den Inhalt der .html Datei in eine Variable lesen (z.B. mit $file_content = fread(fopen("file", "r"), filesize("file")); ).

      2. Den string mit Regulaeren Ausdrueken nach <a href="blabla"> suchen lassen. Dabei blabla herausfiltern.

      3. Den erhaltenen Array in eine Datei schreiben.

      Bei Perl gibt es ein Modul dafür - und fertig.

      Gruß
      Timothy

      P.S. ist nicht böse gemeint  - okay?

      1. Bei Perl gibt es ein Modul dafür - und fertig.

        Gruß
        Timothy

        Na der Meinung bin ich aber auch Timothy....

        use HTML::LinkExtor; # das ist wie ein Sonntagskonzert

        Viele Grüße, Rolf

        P.S. ist nicht böse gemeint  - okay?

        Schließ ich mich an /**/

        1. Eine kleine Ergänzung zum Thema Link::Extor, was mit diesem Modul so möglich ist, prüfe z.B. hier diese Forum-Datei, da sind z.Z. 739 Links drin und einige auch fehlerhaft ;-)

          Viele Grüße, Rolf

          PS: die Prüfung von "Links ins WWW" ist auf http://www.i-netlab.de online möglich...

          Fehlerreport für http://www.teamone.de/selfaktuell/forum/index.shtml

          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64095.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64080.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64042.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64002.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64026.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64036.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63993.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64007.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63992.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64013.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64060.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64063.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64067.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64015.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64023.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64029.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64075.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64090.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64012.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63991.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63989.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64065.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64061.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64053.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64008.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63997.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63998.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64003.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63982.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63986.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63977.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63983.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63971.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64017.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63969.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64097.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64140.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64149.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63967.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63973.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63978.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63981.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64064.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/63985.html
          Fehler: http://www.teamone.de/selfaktuell/forum/messages/64020.html

      2. Hi,
        ein Modul dazu zu Basteln, ist in PHP wie in Perl keine Schwierigkeit. Bisher ist ein solches Modul noch nicht umgesetztworden, weil es wohl keine (grosse) Nachfrage gegeben hat.
        Das Perl die groessere Modulbibliothek aufgrund seines alters hat habe ich ja woanders schon geschrieben. Daraus kann man jetzt schlecht auf das Besser oder Schlechter einer Sprache schliessen, oder?

        P.S. ist nicht böse gemeint  - okay?

        na, klar, solange hier niemand per(l)soenlich angegriffen wird bin ich dabei ;-)

        Jan