Hallo,
Kennst Du den Anfang? Wie kann ich denn Liks verfolgen lassen, das ist das Hauptproblem, die Verbindung und das Auslesen bekomme ich schon irgendwie hin, aber wie lasse ich alle Links verfolgen und wenn ein Ergebnis zu http://www.xy.de gefunden wurde *ja*, wenn nicht *nein* in die Datenbank schreiben lassen und den Vorgang beenden lassen?
Von sich aus kann cURL das nicht. Was cURL kann, ist dir den Quelltext einer HTML Datei bringen, POST Requests absetzten und sonstige 'Browser-Aufgaben'. cURL ist praktisch ein Browser ohne Renderingengine und ähnlichem.
Hier ist ein einfaches Beispiel:
<?php
$cu = curl_init();
if($cu){
curl_setopt($cu, CURLOPT_URL,'http://www.example.org');
curl_setopt ($cu, CURLOPT_RETURNTRANSFER, 1);
$result = curl_exec ($cu);
curl_close ($cu);
echo htmlspecialchars($result);
}
?>
Das wird dir den Quelltext von http://www.example.com ausgeben.
Wenn du deinen Crawler jetzt allen Links folgen lassen willst, dann musst du nach URLs im Quelltext suchen und diesen dann wieder folgen.
Es könnte dir vielleicht auch helfen, die zahlreichen Kommentare auf der php.net zu cURL zu lesen, und auch alles auszuprobieren.
gruß,
Severin
Realität ist das, was nicht verschwindet, wenn man aufhört, daran zu glauben.
--Philip K. Dick