Peter: Google-Suchwunder

Hallo Fans,

im SZ-Magazin von heute steht bzgl. Google sinngemäß (Aussage vom Google-Deutschland Presssprecher) :
"Die Suchmaschine hat weltweit 2000 Anfragen pro Sekunde. Für _eine_ dieser Suchanfragen werden dann vier Milliarden Seiten in oft weniger als einer Sekunde nach dem Stichwort durchforstet."

Mich interessiert es, wie man Seiten eigentlich durchforsten kann, ohne sie runterzuladen (ein Download kann ja wohl bei dieser Zahl von Seiten nicht erfolgen).
Außerdem wundert es mich sehr, dass auch ohne Download eine _so_große_ Zahl von Seiten zu schaffen ist. Das Netzt wartet doch nicht nur auf Google-Anfragen.(4 Milliarden * 2000 = 8000 Milliarden "Seiten-Durchforstungen" weltweit pro Sekunde!) Wie ist das möglich? Habe ich vielleicht eine falsche Vorstellung von "Seiten-Durchforsten"?

Freue mich auf eure Erklärung/Meinung!

Gruß
Peter

  1. Hallo,

    an all die anderen Forums-Antworter, nicht übel nehmen falls falsch.

    Ich glaube zu wissen dass man seine Seite bei Google "anmelden" muß.
    Und ich nehme mal an das diese dann in eine Datenbank eingetragen wird.
    Ich hoffe das war richtig so und hilft weiter.

    Grüsse

    Tobias

    1. Hallo,

      Ich glaube zu wissen dass man seine Seite bei Google "anmelden" muß.
      Und ich nehme mal an das diese dann in eine Datenbank eingetragen wird.
      Ich hoffe das war richtig so und hilft weiter.

      AFAIK _muss_ man seine Seite nicht anmelden. Wenn Google Links auf die Seite findet, schaut er automatisch mal vorbei.

      Gruß
      Arx

      --
      Do it yourSELF 'cause SELFmade is bestmade.
      Selfcode: ie:% fl:( br:^ va:} ls:[ fo:) rl:( n4:{ ss:| de:> js:| ch:? mo:} zu:)
      Selfcode entschlüsseln: http://peter.in-berlin.de/projekte/selfcode/
      Selfcode-Info: http://emmanuel.dammerer.at/selfcode.html
      Für alle Forum-Neulinge:
      1.http://de.selfhtml.org/
      2.http://suche.de.selfhtml.org/ -> http://forum.de.selfhtml.org/archiv/
      3.http://forum.de.selfhtml.org/faq/ -> http://forum.de.selfhtml.org/cgi-bin/fo_post
      1. Hallo,

        AFAIK _muss_ man seine Seite nicht anmelden. Wenn Google Links auf die Seite findet, schaut er automatisch mal vorbei.

        Jetzt ist es raus - Google ist ein Mann. Wie sonst kann man(n) so viele Seiten so schnell finden... Außerdem viel zu tun, kaum zu Hause (weil Seiten suchen) und Abends in die virtuelle Bar mit Herrn Metager und seinem Kumpel Fireball.

        Mit verstohlenem Grinsen

        André

        --
        ie:% fl:( br:& va:) ls:# fo:) rl:° n4:~ ss:{ de:] js:( ch:| mo:} zu:)
        Die Farbe eines Autos ist egal, hauptsache sie ist schwarz...
        http://forum.de.selfhtml.org/archiv/2003/10/60651/
        1. Super, das hilft jetzt wirklich weiter.

          Tobias

          1. Hallo,

            Super, das hilft jetzt wirklich weiter.

            Aber nicht auf die Tastatur weinen... Ich habe in 4,5 Stunden Wochenende. Da werde ich meiner Freude durch unqualifizierte Kommentare wohl einmal Ausdruck verleihen dürfen?! Ansonsten versuche ich mich auf das 'fachliche' zu beschränken.

            Und allen anderen sei gesagt: Nie wieder vom Thread abschweifen. Auflockerungen sind hier nicht gewollt.

            Mit freundlichen Grüßen

            André

            --
            ie:% fl:( br:& va:) ls:# fo:) rl:° n4:~ ss:{ de:] js:( ch:| mo:} zu:)
            Die Farbe eines Autos ist egal, hauptsache sie ist schwarz...
            http://forum.de.selfhtml.org/archiv/2003/10/60651/
            1. Menno..., Auflockerungen sind schon gewollt :-)

              Nur interessiert es mich halt auch, da ja mein Wissen darüber aller ansicht nach falsch ist.

              Tobias

              1. Hi,

                Nur interessiert es mich halt auch, da ja mein Wissen darüber aller ansicht nach falsch ist.

                ja, es ist falsch, was Du sogar bei Google selbst nachlesen kannst. Es reicht bereits ein einziger Link von einer bereits von Google besuchten Seite. Abgesehen davon bringt eine Anmeldung u.U. keinen dauerhaften Eintrag - unbedeutende (bzw. als solche angesehene) Seiten fliegen über kurz oder lang wieder aus dem Index, während extern verlinkte Seiten Bestand haben und - je mehr und besser verlinkt - auch häufiger gespidert und besser gelistet werden.

                freundliche Grüße
                Ingo

          2. Hi

            Super, das hilft jetzt wirklich weiter.

            Die Sache mit der Bar bestimmt ein wenig:

            http://www.woodshed.de/dialog-robot.html

            :)

            so long
            ole
            (8-)>

  2. Halihallo Peter

    Mich interessiert es, wie man Seiten eigentlich durchforsten kann, ohne sie runterzuladen (ein Download kann ja wohl bei dieser Zahl von Seiten nicht erfolgen).

    Doch. Alle Seiten, die über google gefunden werden können, sind
    bereits heruntergeladen. Es gibt einen etwa allmonatlichen "Google-
    Dance", der alle Seiten die irgendwie miteinander verlinkt sind (man
    muss die Seiten eben nicht anmelden) herunterlädt und in einer
    lokalen, für die Suche optimierten Form, im Google-Netzwerk (den
    sogenannten Clustern) speichert.

    Außerdem wundert es mich sehr, dass auch ohne Download eine _so_große_ Zahl von Seiten zu schaffen ist. Das Netzt wartet doch nicht nur auf Google-Anfragen.(4 Milliarden * 2000 = 8000 Milliarden "Seiten-Durchforstungen" weltweit pro Sekunde!) Wie ist das möglich? Habe ich vielleicht eine falsche Vorstellung von "Seiten-Durchforsten"?

    Ja. Die Anfragen gehen nicht auf einen einzigen Rechner, sondern
    werden (Lastenverteilend) auf mehr als 6000 Rechner verteilt. Die
    Seiten müssen bei einer Suchabfrage nicht heruntergeladen werden,
    da sie bereits auf jedem Suchanfragerechner (etwas korrekter: alle
    indizierten Seiten werden auf einem Cluster von 10 Rechnern gespeichert, jede Anfrage wird von so einem Cluster verarbeitet) in
    geeigneter Form gespeichert sind. Die Seiten müssen also nicht
    heruntergeladen werden, sondern einfach von der *lokalen Festplatte*
    eingelesen werden.

    Falls nun eine Suchanfrage stattfindet, wirst du also auf eines
    dieser Cluster "weitergeleitet". Dieses Cluster (10 parallel
    geschaltene Computer) sucht dann auf der *Festplatte* nach passenden
    Dokumenten. Die Suche ist sehr schnell, da die Dokumente nicht
    einzeln durchsucht werden müssen, sondern alle Dokumente in einem
    für die Suche optimierten (auf der lokalen Festplatte liegenden)
    Struktur vorliegen (ein sogenannter invertierter Index, der z.B.
    Wort->Dokumentenliste abbildet).

    So und nun wünsche ich allen eine schöne Zeit, denn ich verschwinde
    nach Frankreich! Bis bald, arme Bürosesselpupser :-)

    Viele Grüsse

    Philipp

    1. Halihallo Philipp

      vielen Dank für die wirklich _sehr_ ausführliche und interessante Antwort!

      »»So und nun wünsche ich allen eine schöne Zeit, denn ich verschwinde
       nach Frankreich!

      Du Glücklicher! Schöne Zeit!

      Bis bald, arme Bürosesselpupser :-)

      Nun, irgendetwas  muss man doch tun, bis die Antwort im Forum kommt.....  :-)

      Viele Grüsse
      Peter

    2. Hallo,

      Es gibt einen etwa allmonatlichen "Google-Dance"

      Gibt's den wirklich noch? Soweit ich weiß (und die häufigen Änderungen der PLatzierung verschiedener meiner Seiten spricht dafür), wird der Index inzwischen  kontinuierlich aktualisiert. http://dance.efactory.de/d-index.php

      Gruß, Serjosha

  3. Hello,

    wie ich neulich gerade vernahm, wird die Seite von Google heruntergeladen, häufig von den Googles (das sind die vielen freiwilligen Helfer für die Kategorisierung) mit Augen, Kopf und Händen bearbeitet und dann das Resultat als Nettotext, also ohne HTML-Tags, im Suchbaum abgelegt. Und was mich verwundert hat, diese Seiten sollen angeblich nicht in "Datenbanken" verschwinden, sondern eben als Gesamtes abgespeichert werden.

    Allerdings behaupte ich, dass eine derartige Daensammlung auch schon wieder eine Datenbank darstellt, zumal die wichtigsten vorkommenen Begriffe dann doch in einem Index mit einer Referenz auf die Seite landen.

    Aber ich glaube, dass das auf Google sogar irgendwo genau beschrieben ist...

    Liebe Grüße aus http://www.braunschweig.de

    Tom

    --
    Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
    Nur selber lernen macht schlau
    1. Hallo Tom,

      Aber ich glaube, dass das auf Google sogar irgendwo genau beschrieben ist...

      Jepp, aber nicht mit fleissigen Googles sondern mit fleissigen Tauben. ;o)
      http://www.google.com/technology/pigeonrank.html

      Tim

  4. Hallo.

    Google durchforstet wie schon erwähnt einmal im Monat das Netz und sucht sich die Seiten raus.

    Wenn man in Google nach etwas sucht, dann kann man z.B. auch die Cache-Version von Google aufrufen.
    Da sieht man dann wie viel Google von der Seite übernommen hat.

    Beispiel:
    http://www.google.de/search?hl=de&ie=UTF-8&q=selfhtml&meta=
    Hier habe ich nach selfhtml gesucht und wenn du jetzt unten rechts auf "Im Cache" klickst siehst du die google-Version.
    http://www.google.de/search?q=cache:Obf_HRsZ-LwJ:de.selfhtml.org/+selfhtml&hl=de
    Obwohl die sogar noch fast genauso aussieht wie die Origial-Seite.

    Ich hoffe ich konnte helfen, H2O

    --
    Erst selber im </archiv/> suchen: http://suche.de.selfhtml.org/
    Dann gibt es noch http://www.google.de/ und erst dann das Forum fragen.
    ie:% fl:| br:^ va:| ls:# fo:| rl:? n4:| ss:{ de:] js:) ch:? sh:( mo:? zu:|
    Infos: http://emmanuel.dammerer.at/selfcode.html
    1. Hi,

      Google durchforstet wie schon erwähnt einmal im Monat das Netz und sucht sich die Seiten raus.

      wie kommst Du denn darauf? Für Google interessante Seiten werden mehrmals täglich gespidert. Selbst auf meiner kleinen Site vergeht kaum ein Tag ohne Besuch mindestens eines Googlebots.

      freundliche Grüße
      Ingo

      1. Hallo.

        wie kommst Du denn darauf? Für Google interessante Seiten werden mehrmals täglich gespidert. Selbst auf meiner kleinen Site vergeht kaum ein Tag ohne Besuch mindestens eines Googlebots.

        Richtig.
        Ich habe mich da verlesen.
        Bei Google steht, ich hab's gerade nochmal gelesen, dass sowas bis zu vier Wochen dauern kann.

        Sorry.

        Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?

        Schönen Tag noch, H2O

        --
        Erst selber im </archiv/> suchen: http://suche.de.selfhtml.org/
        Dann gibt es noch http://www.google.de/ und erst dann das Forum fragen.
        ie:% fl:| br:^ va:| ls:# fo:) rl:? n4:| ss:{ de:] js:) ch:? sh:( mo:? zu:|
        Infos: http://emmanuel.dammerer.at/selfcode.html
        1. Hi H2O,

          Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?

          Dafür gibt es die Statistiken, die sowas erfassen

          Viele Grüße
          Mathias Bigge

        2. Hi,

          Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?

          na ich werte einfach meine Logfiles aus. Heute z.B. war Google bereits sehr fleissig..;-)

          [10/Jul/2004]

          17: Googlebot/2.1 (+http://www.googlebot.com/bot.html) *g
                Ref: -
          [03:46:40]     /web/
          [03*54*11] 304 /web/leistungen.html
          [03:59:02]     /web/links.html
          [04:24:58] 304 /prg/btg-abrechnung.html
          [03*54*12]     /web/projekte.html
          [03:54:19]     /statistik.html
          [03*54*13]     /web/css-layout.html
          [04:07:12]     /web/imenu.html
          [03*54*18]     /
          [04:07:06]     /web/em.html
          [04:13:15]     /web/access.log.html
          [03*58*52] 304 /web/impressum.html
          [04:07:08] 304 /tanz/tanzschritte.html
          [04:25:04] 304 /ExterneLinks.html?www.wer-weiss-was.de/
          [04:25:05] 304 /tanz/argentino.html
          [03*59*02]     /web/tips.html
          [04*07*09] 304 /skm-krefeld.html
          [04:13:13] 304 /tanz/tanzkurs.html
          [04:21:28]     /web/ExterneLinks.html?css.maxdesign.com.au/listamatic/
          [04*07*10]     /foto/dionysos.html
          [04:17:46]     /web/zielscheibe.html
          [04:21:34]     /web/ExterneLinks.html?msdn.microsoft.com/library/en-us/dnie60/html/cssenhancements.asp
          [04*07*13]     /tanz/tango.html
          [04:19:56]     /web/button-demo.html
          [04:21:34]     /sitemap.html
          [04*07*15]     /tanz/
          [04:13:14]     /tanz/rotweiss.html
          [04:19:55]     /web/zentrierung.html
          [04:35:20] 304 /tanz/creacasino.html
          [04:36:29] 304 /web/kalenderwoche.html
          [04:42:20] 304 /web/selfhtml.html
          [04:43:02] 304 /web/homepage.html
          [05:07:11] 304 /tanz/merengue.html
          [05:08:19]     /prg/access-info.html
          [05:14:36] 304 /tanz/discofox.html
          [04*13*13] 304 /tanz/salsa.html
          [04*13*21]     /prg/
          [04*21*28] 304 /web/buttonschrift.html
          [04*25*01]     /web/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
          [04:41:24] 304 /web/buttons.html
          [04:47:35] 304 /ExterneLinks.html?www.hotel-dionysos.de/
          [04*30*14]     /web/popup.html
          [04:38:09] 304 /tanz/t-jive.html
          [04:47:42]     /web/rahmen.html
          [04:48:26]     /web/clear.html
          [05:12:56] 304 /tanz/t-quickstep.html
          [04*32*35]     /web/ExterneLinks.html?www.w3.org/Consortium/Offices/Germany/Trans/WAI/webinhalt.html
          [04:50:10] 304 /ExterneLinks.html
          [04*37*28] 304 /prg/sozialberatung.html
          [04*45*33] 304 /tanz/ExterneLinks.html
          [04:47:39] 304 /web/formular.html
          [05:11:24]     /web/ExterneLinks.html?www.neuntewelt.de/
          [05:33:39]     /web/ExterneLinks.html?www.strohhalm.org/
          [05:53:40] 304 /tanz/ExterneLinks.html?www.tanzschule-reichelt.de/index2.htm
          [06:04:13] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
          [06:08:31] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/index-mo.html
          [04*47*35] 304 /prg/wfbm-beitrag.html
          [04*55*34] 304 /prg/AccessInfo.exe.manifest
          [04*57*10]     /prg/psadr-krefeld.html
          [05:01:11]     /web/infobox.html
          [05:26:07] 304 /tanz/t-slowfox.html
          [05:33:36]     /web/ExterneLinks.html?www.webwriting-magazin.de/sogehts/cssebenen.shtml
          [05:57:33] 304 /tanz/ExterneLinks.html?www.tanzamwall.de/
          [05*00*05] 304 /web/framesets.html
          [05*07*06] 304 /prg/Sozialberatung.xls
          [05:17:45]     /web/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/
          [05*07*53]     /web/ExterneLinks.html?www.DM-Formationen2004.de/
          [05:09:39]     /web/ExterneLinks.html
          [05:17:47] 304 /tanz/t-chacha.html
          [05:33:35]     /web/ExterneLinks.html?www.profiseller.de/shop/P7315851
          [05:38:18]     /web/ExterneLinks.html?www.edition-w3c.de/
          [05*12*05] 304 /tanz/t-paso.html
          [05:14:36] 304 /tanz/argentino1.html
          [05:41:28]     /web/ExterneLinks.html?www.landtag.nrw.de/WWW/GB_I/I.1/Ausschuesse/A01/13-86.htm
          [05*12*14] 304 /prg/WfbM-Beitrag.xls
          [05:36:35] 304 /tanz/t-walz.html
          [05*18*26] 304 /tanz/t-samba.html
          [05*19*59]     /web/ExterneLinks.html?www.e-k-i-r.de/gerresheim/senioren/
          [05:21:51] 304 /tanz/t-rumba.html
          [05:35:39]     /web/ExterneLinks.html?www.css-technik.de/
          [05:45:24]     /web/ExterneLinks.html?vsis-www.informatik.uni-hamburg.de/ergonomie/index.html
          [05:46:55]     /web/ExterneLinks.html?www.barrierefreies-webdesign.de/
          [05:52:56]     /web/ExterneLinks.html?www.kommdesign.de/
          [05*26*09] 304 /tanz/adtv.html
          [05:52:57]     /web/ExterneLinks.html?www.drweb.de/
          [06:05:42]     /web/ExterneLinks.html?jendryschik.de/wsdev/einfuehrung/
          [05*26*54] 304 /tanz/t-tango.html
          [05*26*56] 304 /tanz/t-slowwalz.html
          [05*29*18] 304 /tanz/creaclub.html
          [05*50*10]     /web/ExterneLinks.html?validator.de.selfhtml.org/
          [05:59:32]     /web/ExterneLinks.html?www.einfach-fuer-alle.de/
          [05*53*05]     /web/css-layout.html?blau-links
          [06*00*15] 304 /prg/btg-doc6.htm
          [06*04*09]     /web/ExterneLinks.html?de.selfhtml.org/
          [06*04*10]     /web/ExterneLinks.html?www.behindertenbeauftragter.de/
          [06*06*22] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/
          [06*24*27]     /web/ExterneLinks.html?www.einfach-fuer-alle.de/artikel/ietext/

          28: Googlebot/2.1 (+http://www.googlebot.com/bot.html) *g
                Ref: -
          [07:15:45]     /web/ExterneLinks.html?www.alistapart.com/stories/taminglists/
          [07*22*37]     /web/ExterneLinks.html?www.tanfa.co.uk/
          [07*36*14] 304 /ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
          [07*42*08]     /web/ExterneLinks.html?/www.tanfa.co.uk/
          [07*49*40]     /web/ExterneLinks.html?www.meyerweb.com/eric/talks/2003/commug/commug.html
          [07*53*42]     /404.html
          [08*00*27]     /web/seo.html

          * in der Zeitangabe bedeuten, daß ein Spider mit einer anderen (Google-)IP kam.

          freundliche Grüße
          Ingo