Michael W: Google

Hallo,

letztens hat mich ein kumpel gefragt wie eine Such-Machine wie Google funktioniert, woher Sie so schnell soviele Seiten findet.
Ich habe so getan als ob ich es wüsste, aber sicher war ich mir keines wegs
Wie funktionierts wirklcih, denn in beschreibungen wird erklärt, dass man diese Meta-Tags einstezen soll, aber ich glaube nicht, dass das alles ist - woher soll denn Google vom einen auf den anderen augenblick erkennen, dass auf der 10031251857 sten Seite der und der Meta tag steht. Also wie gehts wirklich mit der Such-Maschienen Eintragung ??

Danke

  1. letztens hat mich ein kumpel gefragt wie eine Such-Machine wie Google funktioniert, woher Sie so schnell soviele Seiten findet.
    Ich habe so getan als ob ich es wüsste, aber sicher war ich mir keines wegs
    Wie funktionierts wirklcih, denn in beschreibungen wird erklärt, dass man diese Meta-Tags einstezen soll, aber ich glaube nicht, dass das alles ist - woher soll denn Google vom einen auf den anderen augenblick erkennen, dass auf der 10031251857 sten Seite der und der Meta tag steht.

    Doch, das geht (irgendwo steht's auch im Netz).
    Kurz:

    1. gutes Indexieren (wie jede Profi-Datenbank)
    2. kompletten Index im RAM => sauschnell

    1. Doch, das geht (irgendwo steht's auch im Netz).
      Kurz:

      ZU KURZ

      1. gutes Indexieren (wie jede Profi-Datenbank)
      2. kompletten Index im RAM => sauschnell

      Habs nicht ganz verstanden :-)

      1. Habs nicht ganz verstanden :-)

        Google durchsucht nicht das ganze Internet, wenn du ne Suchanfrage machst, sondern seine eigene Datenbank, in der verdammt viele (kA wieviel) Seiten gelistet sind.
        Das macht Google, indem er mit seinen Robotern wie ein Heuschreckenschwarm über Seiten herfällt, allen Links folgt (so kommt er auch auf andere Seiten) und alle diese Seiten in seinen Suchindex aufnimmt.

        Deshalb sind die Einträge auf Google auch nie ganz aktuell, da der Roboter nicht ständig überall sein kann.

        Dann benutzt Google noch ein paar nette Spielereien, z.B. zählt er wieviele Links von anderen Seiten auf deine Seite verweisen. Je mehr das sind, desto höher ist dein Ranking in der Suchmaschine (die man nicht mit "ie" schreibt, da sie eine Maschine ist und keine Zugschiene).

        So oder anders funktioniert das ganze. :)

        mfg,
        Johann

        1. Cool.
          Jetzt würde ich gerne mal den Test machen:
          Was für Meta-Tags muss ich in meine Index schreiben damit mir Google bei dem Suchbegriff "kkiop1125" folgenden Link anbietet http://www.ist_ja_nur_ein_test.de mit dem Text "Das ist der kkiop1125 Test" ?
          Muss ich die Meta-Tags überhaupt in die Index schreiben oder sogar in die index des hauptverzeichnisses, damit der "Roboter" sie schneller findet ? und überhaupt: kann man von einer bestimmten dauer ausgehen bis er sie gefunden hat ?
          und stimmt das, dass Google, so behauptete das mein Kumpel, bis zu 20% mehr seiten findet ?

          Danke

          1. Cool.
            Jetzt würde ich gerne mal den Test machen:
            Was für Meta-Tags muss ich in meine Index schreiben damit mir Google bei dem Suchbegriff "kkiop1125" folgenden Link anbietet http://www.ist_ja_nur_ein_test.de mit dem Text "Das ist der kkiop1125 Test" ?

            Mit Meta-Tags hat das alles nicht mehr viel zu tun. Die Dinger wurden zwar mal eingesetzt, um Suchmaschinen bestimmte Stichwörter zu einer Seite anzubieten, auf Grund von Missbrauch wird diesen Wörtern nicht mehr allzu viel Bedeutung zugemessen.

            Was eine Suchmaschine davon abgesehen grundsätzlich macht, ist mindestens einen Teil des eigentlichen Seiteninhalts in die eigene Datenbank zu übernehmen, die großen Maschinen übernehmen inzwischen wahrscheinlich allesamt sogar die komplette Seite.

            Wenn Du willst, daß Deine Seite bei einem bestimmten Begriff gefunden wird, mußt Du also prinzipiell nicht weiter machen, als diesen Begriff auf der Seite zu verwenden - so einfach kann's sein.

            Aber: Eine Suchmaschine indiziert nicht blind alles und jedes. Homepages, wie sie von Providern angeboten werden, werden manchmal garnicht aufgenommen. Und auch andere Seiten werden von vornherein als "unwichtig" deklariert und nicht aufgenommen.

            Zweitens kommt es darauf an, wo ein Suchbegriff auftaucht. Generell kann man davon ausgehen, daß ein Suchbegriff, wenn er irgendwo im Text auftaucht, keine große Bedeutung für die ganze Seite hat. Taucht der Suchbegriff jedoch beispielsweise in einer Überschrift <h1> auf, wird dieser Begriff für die Seite von großer Bedeutung sein.

            Aus diesem Grund ist es übrigens klug, wenn man auf seinen Seiten zum Beispiel Überschriften auch tatsächlich mit dem dafür vorgesehenen Tags <h1> bis <h6> markiert und nicht einfach <font> und <b> ein knallbuntes Aussehen gibt.

            Muss ich die Meta-Tags überhaupt in die Index schreiben oder sogar in die index des hauptverzeichnisses, damit der "Roboter" sie schneller findet ?

            Das ist vollkommen unerheblich. Der Roboter, der das Web indiziert, ist von der eigentlichen Suchmaschine, die die Suchanfragen aus diesem Index heraus beantwortet, vollkommen getrennt.

            Nochmal: Wenn Du eine Suchanfrage stellst, dann wird _nicht_ das Netz durchsucht, sondern eine interne Datenbank. Diese Datenbank wird ständig von Robotern (oder "Spidern") aktualisiert. "Zeit" ist daher für die Roboter bei ihrer Arbeit eher unerheblich, denn mit den Suchanfragen haben sie nichts zu tun.

            und überhaupt: kann man von einer bestimmten dauer ausgehen bis er sie gefunden hat ?

            Das kommt auf die Suchmaschine an. Google kommt zum Beispiel bei mir mit schöner Regelmäßigkeit alle vier Wochen vorbei. Andere Suchmaschinen versprechen wesentlich kürzere Abstände zwischen den Besuchen.

            und stimmt das, dass Google, so behauptete das mein Kumpel, bis zu 20% mehr seiten findet ?

            Nein. Google setzt spezielle Verfahren ein, um Seiten anzubieten, die mit dem gesuchten Begriff möglichst viel zu tun haben. Aus diesem Grund liefert Google in der Regel deutlich bessere, weil brauchbarere Ergebnisse als viele andere Maschinen.
            Das Verfahren nennt sich PageRank und ist auf http://www.google.de/intl/de/why_use.html beschrieben.

            Aber pauschal zu sagen "X findet Y Seiten mehr" ist Quatsch. Denn wen interessiert es, ob auf eine Suche 100.000 oder 120.000 Seiten vorgeschlagen werden? Wichtig ist nur, daß unter den ersten zehn oder zwanzig angebotenen Seiten diejenige ist, die die Frage beantwortet.

            Gruß,
              soenk.e

            1. Sehr aufschlussreich !!
              Also wenn ich jetzt eine seite erstelle wo innerhalb des <h1></h1>
              der suchbegriff drin vorkommt, könnte es etwa 4 wochen dauern bis google ihn als suchbegriff unter der adresse speichert auf der er diesen begriff gefunden hat.
              wenn überhaupt ...
              Wie kommt es dann aber, dass große Firmen wie T-Online das so schön hinbekommen, wenn ich nach ihnen suche ?

              1. Also wenn ich jetzt eine seite erstelle wo innerhalb des <h1></h1>
                der suchbegriff drin vorkommt, könnte es etwa 4 wochen dauern bis google ihn als suchbegriff unter der adresse speichert auf der er diesen begriff gefunden hat.

                Bevor jetzt jemand kommt und <h1> als Suchmaschinen-Stichwort-Tag bezeichnet. Der gesuchte Begriff kann natürlich auch irgendwo anders in der Seite vorkommen. Es ist nur so, daß auf eine Suchanfrage natürlich mehrere Seiten passen, eine gute Suchmaschine unterscheidet sich dann von einer schlechten dadurch, daß sie die Seiten untereinander abwägt und sich überlegt, welche dieser möglicherweise tausend Seiten wohl am ehesten zu dem gesuchten passt.
                Im Zuge dieser Abwägung wird auch geprüft, _wo_ der Begriff, nach dem gesucht wurde, in einer Seite auftaucht. Taucht ein Begriff auf Seite A in einer Überschrift 1. Ordnung (<h1>) auf, auf Seite B in einer 4. Ordnung (<h4>) und auf Seite C irgendwo im Text, dann ist von diesen Seiten Seite A möglicherweise die interessanteste.

                Das ist aber nur ein grober Anhaltspunkt. In diese Abwägung werden noch eine ganze Reihe weiterer Parameter mit einbezogen, die zu einem Gutteil von den Suchmaschinenbetreibern geheim gehalten werden, um Manipulationen vorzubeugen.

                Deshalb grundsätzlich: Schreibe Deine Seiten so, daß sie eine vernünftige Struktur haben. Überschriften mit <hx>, Absätze mit <p>, Listen mit <ul> oder <ol>, usw.

                Der W3C-Validator unter http://validator.w3.org hilft Dir dabei ein bißchen, wähle einfach "Show outline" mit aus, dann zeigt er Dir die Struktur der jeweiligen Seite an.
                Nur mal so als Beispiel: http://validator.w3.org/check?uri=http%3A%2F%2Fwww.schroepl.net%2Fprojekte%2Fgzip_cnc%2F;outline=1, ganz am Ende der Seite, Abschnitt "Outline". Das ist zwar einfach, aber trotzdem schön klar mit <h1> und <h2> strukturiert.
                Das Original findest Du unter http://www.schroepl.net/projekte/gzip_cnc/.

                Wie kommt es dann aber, dass große Firmen wie T-Online das so schön hinbekommen, wenn ich nach ihnen suche ?

                Das hängt mit den oben angesprochenen "weiteren Parametern" zusammen. Häufigkeit der Suchbegriffe, Position der Suchbegriffe (auch die Domain gehört dazu), aber auch wie oft und mit welchen Begriffen von anderen Seiten auf eine Seite verwiesen wurde (letzteres ist das eigentlich "Revolutionäre" an Google gewesen).
                Denn wenn Du zum Beispiel auf Deinen Seiten einen Verweis zu einer Zielseite mit den Worten "Das Kinoprogramm für Hamburg" setzt, dann bedeutet das nichts weiter, als das Du diese Zielseite als eine kompetente Quelle für das Hamburger Kinoprogramm betrachtest. Betreibst Du selber eine Kinoseite, könnte das für die Zielseite weitere Bonuspunkte geben.
                Googles PageRank basiert gewissermaßen auf einer Abstimmung mit den Füßen. Wer viele Verweise auf sich zieht, bekommt auch eine hohe Bewertung.

                Diese ganze Geschichte mit der Bewertung von Seiten ist eine höchst trickreiche und komplizierte Angelegenheit.

                Gruß,
                  soenk.e

          2. Hallo,

            Jetzt würde ich gerne mal den Test machen:
            Was für Meta-Tags muss ich in meine Index schreiben damit mir Google bei dem Suchbegriff "kkiop1125" folgenden Link anbietet http://www.ist_ja_nur_ein_test.de mit dem Text "Das ist der kkiop1125 Test" ?

            Tja dann schau mal ins SelfHTML.

            Muss ich die Meta-Tags überhaupt in die Index schreiben oder sogar in die index des hauptverzeichnisses, damit der "Roboter" sie schneller findet ?

            Verständliche Sätze wären recht hilfreich *grübel*

            und überhaupt: kann man von einer bestimmten dauer ausgehen bis er sie gefunden hat ?

            Es ist nicht gesichert, dass sie aufgenommen wird und der Suchmaschine zur Verfügung steht, aber wenn dann in einer bestimmten Dauer. :-)
            Was wolltest Du eigentlich wissen?
            Wahrscheinlich wieviel Zeit in der Regel vergeht ab Onlinestellung bis  Deine Seite in den Suchergebnissen auftaucht.
            Das hängt davon ab, würde ich mal denken.
            Aber vielleicht weiß ein anderer hier genaueres :-)

            und stimmt das, dass Google, so behauptete das mein Kumpel, bis zu 20% mehr seiten findet ?

            Im Vergleich zu wem oder was?
            Und was bedeutet das "bis zu" ? Entweder findet sie 20% mehr oder nicht.
            Wenn sich das "bis zu" auf einen konkreten Suchbegriff bezieht, dann ist das quasi eine Nullinformation.

            Gruss
               MichaelB

    2. Hallo,

      1. gutes Indexieren (wie jede Profi-Datenbank)
      2. kompletten Index im RAM => sauschnell

      Vielleicht sollte man hier mal erläutern, was ein Index bzw. das Indizieren überhaupt ist, denn nicht jeder hat schon mal was mit Datenbanken zu tun gehabt.

      Der Index ist das Verzeichnis der Begriffe, nach denen man sucht. Die stehen z.B. in alphabetischer Reihenfolge. Wenn also jemand das Wort "SelfIndizieren" erstmals im Netz verwendet, dann wird es beim nächsten Aktualisieren des Index in die Liste aufgenommen, es wird dazugeschrieben, wo im Netz der Begriff stand war, d.h. die URL, und dazu speichert man dann noch andere Informationen (welche, darin unterscheiden sich die Suchmaschinen). Taucht der Begriff nochmal auf anderen Seiten auf, so wird nur noch diese zweite URL dazugeschrieben, d.h. es gibt dann zu "SelfIndizieren" eine ganze Liste. Bei "SelfHTML" haben sich da in dieser Liste bestimmt schon einige tausend Eintragungen angesammelt, und bei jedem Gang durch's Netz kommen welche hinzu, aber es wird auch überprüft, welche der alten Eintragungen noch stimmen.
      Wenn jemand nach "SelfHTML" fragt, bekommt er einfach alle diese Antworten genannt, es muß eigentlich nur wie in einem Wörterbuch geschaut werden, wo im Alphabeth das Suchwort steht. Aus den Zusatzinformationen ergibt sich die Reihenfolge in dr Trefferliste, aber auch die hat man schon vorher festgelegt, indem jede neu gefundene URL in die schon vorhandenen entsprechend den "Zusatzinformationen" eingereiht wird.
      Fragt nun jemand nach "SelfHTML + SelfIndizieren" so werden in den URL-Listen zu diesen beiden Begriffe nur noch die Übereinstimmungen gesucht: Steht eine URL in beiden Listen, dann ist das ein Treffer. Dabei fängt man in der Liste vorn bei den "wichtigsten" Treffern an und kann, wenn man die ersten 10 für die Anzeige hat, schon wieder aufhören. Für das Zählen, wieviele Treffer es insgesamt sind, genügt ein Schätzwert.

      Der Trick ist also: Nicht alle denkbaren, sondern nur alle wirklich gefundenen Begriffe stehen im "Index" und für diese Begriffe ist die Suche und Reihenfolge schon fertig, bevor überhaupt jemand fragt. Das sind zwar viele Daten, aber es läßt sich offenbar (noch?) beherrschen.

      Gruß
      Hans35

      1. Hallo, Hans,

        danke erst einmal für deinen aufschlussreichen und interessanten Beitrag.

        Der Trick ist also: Nicht alle denkbaren, sondern nur alle wirklich gefundenen Begriffe stehen im "Index" und für diese Begriffe ist die Suche und Reihenfolge schon fertig, bevor überhaupt jemand fragt. Das sind zwar viele Daten, aber es läßt sich offenbar (noch?) beherrschen.

        Genau diese Frage stelle ich mir auch beim Lesen deiner Gedanken, denn die Datenmenge der Indizes muss astronomisch hoch sein. Wenn man ein Suchwort erfindet, braucht die Suche genauso lange wie wenn man die Suchmaschine nach einem ihr geläufigen Wort befragt. Demnach muss - wie du sagst - für alle möglichen Begriffe ein Index existieren, und wenn nach ein Suchbegriff 0 Treffer erzielt, dann bedeutet das schlichtweg, dass kein Index vorhanden ist; der gesamte Datenbestand wird nicht erneut nach dem vorher unbekannten Begriff durchsucht.
        Für jedes im Web vorkommendes Wort müsste es also einen Index geben - damit dürfte es wohl im schlimmsten Falle mehr Indizes als indizierte Webseiten geben. Wenn man bedenkt, dass die Sprachschätze aller im Web vertretenen Sprachen, alle Eigennamen, Wortneuschöpfungen und -kombinationen und wohl nahezu alle möglichen Kombinationen aus den bekannten Zeichensatzbuchstaben bis zu einer bestimmten Länge als Indizes vorhanden sein müssten... dann ist das nichts als unvorstellbar.

        Ich glaube, überall rätselt man über Google und spinnt neue Theorien... Ich hoffe, dass sich "in den nächsten Jahrzehnten" :) ein dezentrales, offenes Meta-Netzwerk etablieren wird, sodass nicht eine Firma die Macht über Wert und Relevanz von Informationen des Webs hat. Google zensiert schon heute, und das "uns bekannte Web" existiert vielleicht seit 5-8 Jahren und wird sich in weiteren fünf Jahren noch einmal komplett erneuert haben, und die Dominanz einzelner Konzerne wird hoffentlich schwinden.

        Mathias