T. Tobler: Datenbankaufbau einer gr. Suchmaschine (Google,..)

Guten Tag liebes SelfHTML-Forum!

Ich habe eine Frage zum Aufbau der Datenbanken großer Suchmaschinen:

Bei Google z.B. werden in einem Bruchteil einer Sekunde tausende Seiten durchsucht; das der Algorithmus dahinter streng geheim ist, ist klar.

Aber dennoch meine Frage:
Wie muss eine Datenbank ca. aufgebaut sein um eine solche große Datenmenge in so enorm kurzer Zeit zu durchsuchen? Wie sieht die Strucktur der Datenbank ca aus? Ist einfach jedes Wort was auf einer Internetseite steht einzeln in einer Tabelle aufgelistet die dann schnell durchsucht werden kann, oder wie sieht das aus?

Mit freundlichen Grüßen,
T. Tobler

  1. Hi,

    Bei Google z.B. werden in einem Bruchteil einer Sekunde tausende Seiten durchsucht; das der Algorithmus dahinter streng geheim ist, ist klar.

    nein, Google hat alle relevanten Details veröffentlicht: Google Technology.

    Wie muss eine Datenbank ca. aufgebaut sein um eine solche große Datenmenge in so enorm kurzer Zeit zu durchsuchen?

    Das ist im Prinzip egal, denn ...

    Ist einfach jedes Wort was auf einer Internetseite steht einzeln in einer Tabelle aufgelistet die dann schnell durchsucht werden kann, oder wie sieht das aus?

    ... die Suche findet effektiv höchstwahrscheinlich nicht in einer Datenbank statt, sondern mit eigens dafür gebauten Mechanismen, die ihre Datenbestände größtenteils im Arbeitsspeicher und darüber hinaus in großen Mengen von Indizes haben. Letztere stehen entweder auch in Arbeitsspeichern, oder in Dateien, oder werden von einem "klassischen" DBMS gehandhabt[1]. Von SQL-Statements, die die tatsächliche Suche durchführen, solltest Du nicht ausgehen.

    Cheatah

    [1] Oder none of the above. Es gibt noch 'ne Handvoll anderer Möglichkeiten.

    --
    X-Self-Code: sh:( fo:} ch:~ rl:° br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes