Cheatah: Spider

Beitrag lesen

Hi,

Ich stelle mir das so vor, dass ich in den Header der Dokumente, die Suchbegriffe nach denen dieses Dokument gefunden werden soll, hineinscheibe und in der Nacht lasse ich ein Programm darüberlaufen, dass mir diese Begriffe und die URL dieser Seite ausliest.

"im Prinzip ja". Dass da noch deutlich mehr getan werden _kann_, zeigt der Erfolg von Google bzw. der Misserfolg vieler anderer Suchmaschinen.

Wie aber automatisiere ich das, sodass das Programm eine Seite nach der anderen bearbeitet?

Analysiere den HTML-Code. Finde die Links, sortiere Redundanz und Links zu nicht zu speidernden Seiten raus. Benutze ggf. die Zahl der Links auf eine Seite als Qualitätsindiz.

Cheatah

--
X-Will-Answer-Email: No
X-Please-Search-Archive-First: Absolutely Yes