Spider in PHP
Peter
- php
0 Chris Vollrath0 andreas0 Peter
0 Marko0 Andreas
hallo,
ich habe mich daran versucht eine spider in php zu schreiben. Das skript soll links folgen und die metatags der seiten auslesen. bei html-files ist das ja kein problem, aber bei php files funktioniert das nicht. gibt es eine möglickeit php-files erst ausführen zu lassen und dann den generierten html-code zu analysieren ?
gruss
Peter
hi
kann dir leider nicht helfen, würde aber gerne wissen, ob du mir dein script schicken könntest. wäre echt prima, ich muss eine ähnliche sache realisieren.
gruss
chris
Hi!
Ja, das Script wäre mal interessant zu sehen, da ich gar nicht weiß wie Du die html-Seiten durchsuchst, erst dann kann ich Dir evtl helfen! Was sind das denn für PHP-Seiten? gut wäre es, wenn Du PHP-Seiten nur z.B. für DB-Abfragen verwendest, für den Rest html. dann könntest Du auf der einen Seite html durchsuchen, auf der anderen Seite die DB!
Grüße
Andreas
Das Skript liest mit php per get_meta_tags() die Metatags der Seite aus. Ich will damit nicht meine seiten indizieren sondern das ding auf eine seite ansetzen und dort soll es die seiten die einen bestimmtes metatag haben erfassen und aufschrieben.
Da viel seiten aber mit einer index.php anfangen geht das so nicht weil ich mit dem o.g. Befehl nicht die metatags von einer php -seite bekommen kann sondern nur plain html.
gruss
Peter
Moin,
Das Skript liest mit php per get_meta_tags() die Metatags der Seite aus. Ich will damit nicht meine seiten indizieren sondern das ding auf eine seite ansetzen und dort soll es die seiten die einen bestimmtes metatag haben erfassen und aufschrieben.
Steht doch in den User-Kommentaren zu get_metag_tags() gleich am Anfang: Du kannst einfach statt dem Dateinamen den kompletten URL angeben. Dann öffnet es nicht die Datei direkt sondern schickt eine Anfrage zum jeweiligen Webserver, der macht die Datei auf, schmeisst den PHP-Interpreter an und schickt dir den HTML-Code als Ergebnis. Dasselbe kannst du anwenden wenn du Links verfolgen willst und dir dafür den gesamten HTML-Code holst: statt fopen("/wo/die/datei/liegt","r") benutzt du dann einfach fopen("http://der.server.tld/die/datei", "r").
--
Henryk Plötz
Grüße aus Berlin
Hallo Peter,
ich find das script interessant, wollte gerade so etwas ähnliches in Angriff nehmen zur Verbesserung der Suchfunktion auf http://www.Rhein-Neckar-Guide.de .
Wärst Du eventuell bereit mir den Code zu mailen, damit ich es mir mal anschauen kann, selbstverständlich bekommst Du dann von mir alles was ich dran anpasse, verbessere, oder von ableite.
Gruss
Marko
Hi nochmal!
Nur so rein aus Interesse, wie machst Du Deinem Spider klar, welche Seiten er durchsuchen soll? Also ich könnte mir das vorstellen, dass man den kpl. Verzeichnisbaum in einer Schleife durchsucht, aber wie machst Du das, dass er immer die gelinkten Seiten durchsuchst???
Finde das sehr interessant!
Grüße
Andreas
PS: Mit welcher PHP Funktion kann man kpl Dateien auf ein best. Suchbegriff durchsuchen, doch nicht mit substr() oder?