Im Voraus schon mal vielen Dank für Eure Tipps und Hinweise!
Wieso nimmst du dafür keine fertige Lösung? Da gibts passend fürjede Anzahl an Seiten das passende. z.B. ht/dig für wenige Seiten bis hin zu Nutch für viele millionen Seiten. Ich habe Nutch in Betrieb für ca. 4 Mio Seiten auf nem relativ kleinen Rechner.
Als Lektüre würde ich http://winfwiki.wi-fom.de/index.php/Open_Source_Suchmaschinen_im_Vergleich empfehlen