Stephan: robots.txt beachten

Beitrag lesen

Hallo,

ich baue gerade einen Crawler. Aber ich habe keinen Plan, wie das Funktionieren soll:

Also ich möchte die robots.txt beachten. Ich habe eine Funktion in meinen Code eingebaut, was ist, wenn sie existiert.

Jetzt dachte ich mir, wenn ich mit preg_match das zwischen User-Agent: * und \\n\\n (also des Absatzes) auslese, wie hole ich da jetzt die einzelnen Disallow: oder Deny:?

Also wenn eine robots.txt so aussieht:

User-Agent: *
Deny: /path/
Disallow: /path2/path3/

User-Agent: bla
[...]

Dann möchte ich ja nur im Ersten Schritt das haben:

User-Agent: *
Deny: /path/
Disallow: /path2/path3/

und im zweiten Schritt das:

Deny: /path/

Und  dann suche ich so nach weiteren URLs, die er verfolgen soll:

preg_match_all('/href=("|')(.*?)\1/si', $urlContent, $urls);

Wie schließe ich jetzt diese Paths aus der robots.txt aus?

Also ich muss dazu sagen, ich mache mir diesen Crawler aus so vielen Teilen und Hilfen und bastele so lange dran rum, bis er geht, dass ich noch nicht viel Ahnung von PHP habe, auch wenn ich jetzt schon einen Crawler baue. Also ich habe es vor 2 Monaten angefangen...

Also seit bitte nicht so Streng und erklärt etwas ausführlicher :-)

Vielen Dank!

Stephan