Mr.Luke: Alle Hyperlinks einer Seite herausfinden?! Aber wie?

Mahlzeit...

Ich habe den Quellcode einer Seite eingelesen und möchte sämtliche Links dieser Seite prüfen.

Gibt es eine Funktion, die ähnlich wie z.B.
       preg_match("#href="(.*)"#", $arr_quellcode[$zz], $matches);
funktioniert?

Mein Versuch klappt nicht immer, d.h. er ist nicht wirklich sauber.
Vielleicht fällt euch ja etwas ein?!

Danke und Gruß
Mr. Luke

  1. Hello out there!

    Ich habe den Quellcode einer Seite eingelesen und möchte sämtliche Links dieser Seite prüfen.

    Was meinst du mit „prüfen“? Das, was der W3C Link Checker tut?

    See ya up the road,
    Gunnar

    --
    „Wer Gründe anhört, kommt in Gefahr nachzugeben.“ (Goethe)
    1. Jepp! Genau dies würde ich gerne machen, um eine Seitenstruktur bzw. Seitenbaum zu erzeugen.

      Gibt es vom W3C hierzu eine API?

      Gruß
      Mr.Luke

      Hello out there!

      Ich habe den Quellcode einer Seite eingelesen und möchte sämtliche Links dieser Seite prüfen.

      Was meinst du mit „prüfen“? Das, was der W3C Link Checker tut?

      See ya up the road,
      Gunnar

  2. Hello,

    ich habe da mal eine sehr nützliche Funktion bekommen, die ich Dir gerne wieetergebe:

    function get_urls($page)
    {
      $_urls = array();
      $_a = array();
      //              1          2        3          4            <5>           6           7
      $pattern = '=^(.*?)(<area|<a|<img)(.*?)(href=|src=)"|'"|'(>.*$|>.*?</a>.*$)=msi';
      while(preg_match($pattern, $page, $_a))
      {
        if(count($_a)>1)
        {
          $page = $_a[7];
          $_urls[] = $_a[5];
        }
      }
      return $_urls;
    }

    Harzliche Grüße vom Berg
    http://bergpost.annerschbarrich.de

    Tom

    --
    Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
    Nur selber lernen macht schlau
    Ein Jammer ist auch, dass die Dummen so selbstsicher und die Klugen voller Zweifel sind. Das sollte uns häufiger zweifeln lassen :-)