Hans35: Google

Beitrag lesen

Hallo,

  1. gutes Indexieren (wie jede Profi-Datenbank)
  2. kompletten Index im RAM => sauschnell

Vielleicht sollte man hier mal erläutern, was ein Index bzw. das Indizieren überhaupt ist, denn nicht jeder hat schon mal was mit Datenbanken zu tun gehabt.

Der Index ist das Verzeichnis der Begriffe, nach denen man sucht. Die stehen z.B. in alphabetischer Reihenfolge. Wenn also jemand das Wort "SelfIndizieren" erstmals im Netz verwendet, dann wird es beim nächsten Aktualisieren des Index in die Liste aufgenommen, es wird dazugeschrieben, wo im Netz der Begriff stand war, d.h. die URL, und dazu speichert man dann noch andere Informationen (welche, darin unterscheiden sich die Suchmaschinen). Taucht der Begriff nochmal auf anderen Seiten auf, so wird nur noch diese zweite URL dazugeschrieben, d.h. es gibt dann zu "SelfIndizieren" eine ganze Liste. Bei "SelfHTML" haben sich da in dieser Liste bestimmt schon einige tausend Eintragungen angesammelt, und bei jedem Gang durch's Netz kommen welche hinzu, aber es wird auch überprüft, welche der alten Eintragungen noch stimmen.
Wenn jemand nach "SelfHTML" fragt, bekommt er einfach alle diese Antworten genannt, es muß eigentlich nur wie in einem Wörterbuch geschaut werden, wo im Alphabeth das Suchwort steht. Aus den Zusatzinformationen ergibt sich die Reihenfolge in dr Trefferliste, aber auch die hat man schon vorher festgelegt, indem jede neu gefundene URL in die schon vorhandenen entsprechend den "Zusatzinformationen" eingereiht wird.
Fragt nun jemand nach "SelfHTML + SelfIndizieren" so werden in den URL-Listen zu diesen beiden Begriffe nur noch die Übereinstimmungen gesucht: Steht eine URL in beiden Listen, dann ist das ein Treffer. Dabei fängt man in der Liste vorn bei den "wichtigsten" Treffern an und kann, wenn man die ersten 10 für die Anzeige hat, schon wieder aufhören. Für das Zählen, wieviele Treffer es insgesamt sind, genügt ein Schätzwert.

Der Trick ist also: Nicht alle denkbaren, sondern nur alle wirklich gefundenen Begriffe stehen im "Index" und für diese Begriffe ist die Suche und Reihenfolge schon fertig, bevor überhaupt jemand fragt. Das sind zwar viele Daten, aber es läßt sich offenbar (noch?) beherrschen.

Gruß
Hans35