Peter: Spider in PHP

hallo,

ich habe mich daran versucht eine spider in php zu schreiben. Das skript soll links folgen und die metatags der seiten auslesen. bei html-files ist das ja kein problem, aber bei php files funktioniert das nicht. gibt es eine möglickeit php-files erst ausführen zu lassen und dann den generierten html-code zu analysieren ?

gruss
 Peter

  1. hi
    kann dir leider nicht helfen, würde aber gerne wissen, ob du mir dein script schicken könntest. wäre echt prima, ich muss eine ähnliche sache realisieren.

    gruss
     chris

  2. Hi!
    Ja, das Script wäre mal interessant zu sehen, da ich gar nicht weiß wie Du die html-Seiten durchsuchst, erst dann kann ich Dir evtl helfen! Was sind das denn für PHP-Seiten? gut wäre es, wenn Du PHP-Seiten nur z.B. für DB-Abfragen verwendest, für den Rest html. dann könntest Du auf der einen Seite html durchsuchen, auf der anderen Seite die DB!
    Grüße
      Andreas

    1. Das Skript liest mit php per get_meta_tags() die Metatags der Seite aus. Ich will damit nicht meine seiten indizieren sondern das ding auf eine seite ansetzen und dort soll es die seiten die einen bestimmtes metatag haben erfassen und aufschrieben.
      Da viel seiten aber mit einer index.php anfangen geht das so nicht weil ich mit dem o.g. Befehl nicht die metatags  von einer php -seite bekommen kann sondern nur plain html.

      gruss
       Peter

      1. Moin,

        Das Skript liest mit php per get_meta_tags() die Metatags der Seite aus. Ich will damit nicht meine seiten indizieren sondern das ding auf eine seite ansetzen und dort soll es die seiten die einen bestimmtes metatag haben erfassen und aufschrieben.

        Steht doch in den User-Kommentaren zu get_metag_tags() gleich am Anfang: Du kannst einfach statt dem Dateinamen den kompletten URL angeben. Dann öffnet es nicht die Datei direkt sondern schickt eine Anfrage zum jeweiligen Webserver, der macht die Datei auf, schmeisst den PHP-Interpreter an und schickt dir den HTML-Code als Ergebnis. Dasselbe kannst du anwenden wenn du Links verfolgen willst und dir dafür den gesamten HTML-Code holst: statt fopen("/wo/die/datei/liegt","r") benutzt du dann einfach fopen("http://der.server.tld/die/datei", "r").

        --
        Henryk Plötz
        Grüße aus Berlin

  3. Hallo Peter,

    ich find das script interessant, wollte gerade so etwas ähnliches in Angriff nehmen zur Verbesserung der Suchfunktion auf http://www.Rhein-Neckar-Guide.de .

    Wärst Du eventuell bereit mir den Code zu mailen, damit ich es mir mal anschauen kann, selbstverständlich bekommst Du dann von mir alles was ich dran anpasse, verbessere, oder von ableite.

    Gruss

    Marko

  4. Hi nochmal!

    Nur so rein aus Interesse, wie machst Du Deinem Spider klar, welche Seiten er durchsuchen soll? Also ich könnte mir das vorstellen, dass man den kpl. Verzeichnisbaum in einer Schleife durchsucht, aber wie machst Du das, dass er immer die gelinkten Seiten durchsuchst???
    Finde das sehr interessant!

    Grüße
      Andreas

    PS: Mit welcher PHP Funktion kann man kpl Dateien auf ein best. Suchbegriff durchsuchen, doch nicht mit substr() oder?