Spider von Cheatah, 31.07.2003 14:02

Spider

Cheatah 31.07.2003 14:02

programmiertechnik

Hi,

Ich stelle mir das so vor, dass ich in den Header der Dokumente, die Suchbegriffe nach denen dieses Dokument gefunden werden soll, hineinscheibe und in der Nacht lasse ich ein Programm darüberlaufen, dass mir diese Begriffe und die URL dieser Seite ausliest.

"im Prinzip ja". Dass da noch deutlich mehr getan werden _kann_, zeigt der Erfolg von Google bzw. der Misserfolg vieler anderer Suchmaschinen.

Wie aber automatisiere ich das, sodass das Programm eine Seite nach der anderen bearbeitet?

Analysiere den HTML-Code. Finde die Links, sortiere Redundanz und Links zu nicht zu speidernden Seiten raus. Benutze ggf. die Zahl der Links auf eine Seite als Qualitätsindiz.

Cheatah

--
X-Will-Answer-Email: No
X-Please-Search-Archive-First: Absolutely Yes

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Cheatah: Spider

Beitrag lesen

Spider

Spider