Google-Suchwunder
Peter
- sonstiges
0 Tobias0 Philipp Hasenfratz0 Tom0 H2O0 Ingo Turski0 H2O
Hallo Fans,
im SZ-Magazin von heute steht bzgl. Google sinngemäß (Aussage vom Google-Deutschland Presssprecher) :
"Die Suchmaschine hat weltweit 2000 Anfragen pro Sekunde. Für _eine_ dieser Suchanfragen werden dann vier Milliarden Seiten in oft weniger als einer Sekunde nach dem Stichwort durchforstet."
Mich interessiert es, wie man Seiten eigentlich durchforsten kann, ohne sie runterzuladen (ein Download kann ja wohl bei dieser Zahl von Seiten nicht erfolgen).
Außerdem wundert es mich sehr, dass auch ohne Download eine _so_große_ Zahl von Seiten zu schaffen ist. Das Netzt wartet doch nicht nur auf Google-Anfragen.(4 Milliarden * 2000 = 8000 Milliarden "Seiten-Durchforstungen" weltweit pro Sekunde!) Wie ist das möglich? Habe ich vielleicht eine falsche Vorstellung von "Seiten-Durchforsten"?
Freue mich auf eure Erklärung/Meinung!
Gruß
Peter
Hallo,
an all die anderen Forums-Antworter, nicht übel nehmen falls falsch.
Ich glaube zu wissen dass man seine Seite bei Google "anmelden" muß.
Und ich nehme mal an das diese dann in eine Datenbank eingetragen wird.
Ich hoffe das war richtig so und hilft weiter.
Grüsse
Tobias
Hallo,
Ich glaube zu wissen dass man seine Seite bei Google "anmelden" muß.
Und ich nehme mal an das diese dann in eine Datenbank eingetragen wird.
Ich hoffe das war richtig so und hilft weiter.
AFAIK _muss_ man seine Seite nicht anmelden. Wenn Google Links auf die Seite findet, schaut er automatisch mal vorbei.
Gruß
Arx
Hallo,
AFAIK _muss_ man seine Seite nicht anmelden. Wenn Google Links auf die Seite findet, schaut er automatisch mal vorbei.
Jetzt ist es raus - Google ist ein Mann. Wie sonst kann man(n) so viele Seiten so schnell finden... Außerdem viel zu tun, kaum zu Hause (weil Seiten suchen) und Abends in die virtuelle Bar mit Herrn Metager und seinem Kumpel Fireball.
Mit verstohlenem Grinsen
André
Super, das hilft jetzt wirklich weiter.
Tobias
Hallo,
Super, das hilft jetzt wirklich weiter.
Aber nicht auf die Tastatur weinen... Ich habe in 4,5 Stunden Wochenende. Da werde ich meiner Freude durch unqualifizierte Kommentare wohl einmal Ausdruck verleihen dürfen?! Ansonsten versuche ich mich auf das 'fachliche' zu beschränken.
Und allen anderen sei gesagt: Nie wieder vom Thread abschweifen. Auflockerungen sind hier nicht gewollt.
Mit freundlichen Grüßen
André
Menno..., Auflockerungen sind schon gewollt :-)
Nur interessiert es mich halt auch, da ja mein Wissen darüber aller ansicht nach falsch ist.
Tobias
Hi,
Nur interessiert es mich halt auch, da ja mein Wissen darüber aller ansicht nach falsch ist.
ja, es ist falsch, was Du sogar bei Google selbst nachlesen kannst. Es reicht bereits ein einziger Link von einer bereits von Google besuchten Seite. Abgesehen davon bringt eine Anmeldung u.U. keinen dauerhaften Eintrag - unbedeutende (bzw. als solche angesehene) Seiten fliegen über kurz oder lang wieder aus dem Index, während extern verlinkte Seiten Bestand haben und - je mehr und besser verlinkt - auch häufiger gespidert und besser gelistet werden.
freundliche Grüße
Ingo
Hi
Super, das hilft jetzt wirklich weiter.
Die Sache mit der Bar bestimmt ein wenig:
http://www.woodshed.de/dialog-robot.html
:)
so long
ole
(8-)>
Halihallo Peter
Mich interessiert es, wie man Seiten eigentlich durchforsten kann, ohne sie runterzuladen (ein Download kann ja wohl bei dieser Zahl von Seiten nicht erfolgen).
Doch. Alle Seiten, die über google gefunden werden können, sind
bereits heruntergeladen. Es gibt einen etwa allmonatlichen "Google-
Dance", der alle Seiten die irgendwie miteinander verlinkt sind (man
muss die Seiten eben nicht anmelden) herunterlädt und in einer
lokalen, für die Suche optimierten Form, im Google-Netzwerk (den
sogenannten Clustern) speichert.
Außerdem wundert es mich sehr, dass auch ohne Download eine _so_große_ Zahl von Seiten zu schaffen ist. Das Netzt wartet doch nicht nur auf Google-Anfragen.(4 Milliarden * 2000 = 8000 Milliarden "Seiten-Durchforstungen" weltweit pro Sekunde!) Wie ist das möglich? Habe ich vielleicht eine falsche Vorstellung von "Seiten-Durchforsten"?
Ja. Die Anfragen gehen nicht auf einen einzigen Rechner, sondern
werden (Lastenverteilend) auf mehr als 6000 Rechner verteilt. Die
Seiten müssen bei einer Suchabfrage nicht heruntergeladen werden,
da sie bereits auf jedem Suchanfragerechner (etwas korrekter: alle
indizierten Seiten werden auf einem Cluster von 10 Rechnern gespeichert, jede Anfrage wird von so einem Cluster verarbeitet) in
geeigneter Form gespeichert sind. Die Seiten müssen also nicht
heruntergeladen werden, sondern einfach von der *lokalen Festplatte*
eingelesen werden.
Falls nun eine Suchanfrage stattfindet, wirst du also auf eines
dieser Cluster "weitergeleitet". Dieses Cluster (10 parallel
geschaltene Computer) sucht dann auf der *Festplatte* nach passenden
Dokumenten. Die Suche ist sehr schnell, da die Dokumente nicht
einzeln durchsucht werden müssen, sondern alle Dokumente in einem
für die Suche optimierten (auf der lokalen Festplatte liegenden)
Struktur vorliegen (ein sogenannter invertierter Index, der z.B.
Wort->Dokumentenliste abbildet).
So und nun wünsche ich allen eine schöne Zeit, denn ich verschwinde
nach Frankreich! Bis bald, arme Bürosesselpupser :-)
Viele Grüsse
Philipp
Halihallo Philipp
vielen Dank für die wirklich _sehr_ ausführliche und interessante Antwort!
»»So und nun wünsche ich allen eine schöne Zeit, denn ich verschwinde
nach Frankreich!
Du Glücklicher! Schöne Zeit!
Bis bald, arme Bürosesselpupser :-)
Nun, irgendetwas muss man doch tun, bis die Antwort im Forum kommt..... :-)
Viele Grüsse
Peter
Hallo,
Es gibt einen etwa allmonatlichen "Google-Dance"
Gibt's den wirklich noch? Soweit ich weiß (und die häufigen Änderungen der PLatzierung verschiedener meiner Seiten spricht dafür), wird der Index inzwischen kontinuierlich aktualisiert. http://dance.efactory.de/d-index.php
Gruß, Serjosha
Hello,
wie ich neulich gerade vernahm, wird die Seite von Google heruntergeladen, häufig von den Googles (das sind die vielen freiwilligen Helfer für die Kategorisierung) mit Augen, Kopf und Händen bearbeitet und dann das Resultat als Nettotext, also ohne HTML-Tags, im Suchbaum abgelegt. Und was mich verwundert hat, diese Seiten sollen angeblich nicht in "Datenbanken" verschwinden, sondern eben als Gesamtes abgespeichert werden.
Allerdings behaupte ich, dass eine derartige Daensammlung auch schon wieder eine Datenbank darstellt, zumal die wichtigsten vorkommenen Begriffe dann doch in einem Index mit einer Referenz auf die Seite landen.
Aber ich glaube, dass das auf Google sogar irgendwo genau beschrieben ist...
Liebe Grüße aus http://www.braunschweig.de
Tom
Hallo Tom,
Aber ich glaube, dass das auf Google sogar irgendwo genau beschrieben ist...
Jepp, aber nicht mit fleissigen Googles sondern mit fleissigen Tauben. ;o)
http://www.google.com/technology/pigeonrank.html
Tim
Hallo.
Google durchforstet wie schon erwähnt einmal im Monat das Netz und sucht sich die Seiten raus.
Wenn man in Google nach etwas sucht, dann kann man z.B. auch die Cache-Version von Google aufrufen.
Da sieht man dann wie viel Google von der Seite übernommen hat.
Beispiel:
http://www.google.de/search?hl=de&ie=UTF-8&q=selfhtml&meta=
Hier habe ich nach selfhtml gesucht und wenn du jetzt unten rechts auf "Im Cache" klickst siehst du die google-Version.
http://www.google.de/search?q=cache:Obf_HRsZ-LwJ:de.selfhtml.org/+selfhtml&hl=de
Obwohl die sogar noch fast genauso aussieht wie die Origial-Seite.
Ich hoffe ich konnte helfen, H2O
Hi,
Google durchforstet wie schon erwähnt einmal im Monat das Netz und sucht sich die Seiten raus.
wie kommst Du denn darauf? Für Google interessante Seiten werden mehrmals täglich gespidert. Selbst auf meiner kleinen Site vergeht kaum ein Tag ohne Besuch mindestens eines Googlebots.
freundliche Grüße
Ingo
Hallo.
wie kommst Du denn darauf? Für Google interessante Seiten werden mehrmals täglich gespidert. Selbst auf meiner kleinen Site vergeht kaum ein Tag ohne Besuch mindestens eines Googlebots.
Richtig.
Ich habe mich da verlesen.
Bei Google steht, ich hab's gerade nochmal gelesen, dass sowas bis zu vier Wochen dauern kann.
Sorry.
Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?
Schönen Tag noch, H2O
Hi H2O,
Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?
Dafür gibt es die Statistiken, die sowas erfassen
Viele Grüße
Mathias Bigge
Hi,
Aber woher weißt du denn das Google fast jeden Tag auf deine Seite kommt?
na ich werte einfach meine Logfiles aus. Heute z.B. war Google bereits sehr fleissig..;-)
[10/Jul/2004]
17: Googlebot/2.1 (+http://www.googlebot.com/bot.html) *g
Ref: -
[03:46:40] /web/
[03*54*11] 304 /web/leistungen.html
[03:59:02] /web/links.html
[04:24:58] 304 /prg/btg-abrechnung.html
[03*54*12] /web/projekte.html
[03:54:19] /statistik.html
[03*54*13] /web/css-layout.html
[04:07:12] /web/imenu.html
[03*54*18] /
[04:07:06] /web/em.html
[04:13:15] /web/access.log.html
[03*58*52] 304 /web/impressum.html
[04:07:08] 304 /tanz/tanzschritte.html
[04:25:04] 304 /ExterneLinks.html?www.wer-weiss-was.de/
[04:25:05] 304 /tanz/argentino.html
[03*59*02] /web/tips.html
[04*07*09] 304 /skm-krefeld.html
[04:13:13] 304 /tanz/tanzkurs.html
[04:21:28] /web/ExterneLinks.html?css.maxdesign.com.au/listamatic/
[04*07*10] /foto/dionysos.html
[04:17:46] /web/zielscheibe.html
[04:21:34] /web/ExterneLinks.html?msdn.microsoft.com/library/en-us/dnie60/html/cssenhancements.asp
[04*07*13] /tanz/tango.html
[04:19:56] /web/button-demo.html
[04:21:34] /sitemap.html
[04*07*15] /tanz/
[04:13:14] /tanz/rotweiss.html
[04:19:55] /web/zentrierung.html
[04:35:20] 304 /tanz/creacasino.html
[04:36:29] 304 /web/kalenderwoche.html
[04:42:20] 304 /web/selfhtml.html
[04:43:02] 304 /web/homepage.html
[05:07:11] 304 /tanz/merengue.html
[05:08:19] /prg/access-info.html
[05:14:36] 304 /tanz/discofox.html
[04*13*13] 304 /tanz/salsa.html
[04*13*21] /prg/
[04*21*28] 304 /web/buttonschrift.html
[04*25*01] /web/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
[04:41:24] 304 /web/buttons.html
[04:47:35] 304 /ExterneLinks.html?www.hotel-dionysos.de/
[04*30*14] /web/popup.html
[04:38:09] 304 /tanz/t-jive.html
[04:47:42] /web/rahmen.html
[04:48:26] /web/clear.html
[05:12:56] 304 /tanz/t-quickstep.html
[04*32*35] /web/ExterneLinks.html?www.w3.org/Consortium/Offices/Germany/Trans/WAI/webinhalt.html
[04:50:10] 304 /ExterneLinks.html
[04*37*28] 304 /prg/sozialberatung.html
[04*45*33] 304 /tanz/ExterneLinks.html
[04:47:39] 304 /web/formular.html
[05:11:24] /web/ExterneLinks.html?www.neuntewelt.de/
[05:33:39] /web/ExterneLinks.html?www.strohhalm.org/
[05:53:40] 304 /tanz/ExterneLinks.html?www.tanzschule-reichelt.de/index2.htm
[06:04:13] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
[06:08:31] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/index-mo.html
[04*47*35] 304 /prg/wfbm-beitrag.html
[04*55*34] 304 /prg/AccessInfo.exe.manifest
[04*57*10] /prg/psadr-krefeld.html
[05:01:11] /web/infobox.html
[05:26:07] 304 /tanz/t-slowfox.html
[05:33:36] /web/ExterneLinks.html?www.webwriting-magazin.de/sogehts/cssebenen.shtml
[05:57:33] 304 /tanz/ExterneLinks.html?www.tanzamwall.de/
[05*00*05] 304 /web/framesets.html
[05*07*06] 304 /prg/Sozialberatung.xls
[05:17:45] /web/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/
[05*07*53] /web/ExterneLinks.html?www.DM-Formationen2004.de/
[05:09:39] /web/ExterneLinks.html
[05:17:47] 304 /tanz/t-chacha.html
[05:33:35] /web/ExterneLinks.html?www.profiseller.de/shop/P7315851
[05:38:18] /web/ExterneLinks.html?www.edition-w3c.de/
[05*12*05] 304 /tanz/t-paso.html
[05:14:36] 304 /tanz/argentino1.html
[05:41:28] /web/ExterneLinks.html?www.landtag.nrw.de/WWW/GB_I/I.1/Ausschuesse/A01/13-86.htm
[05*12*14] 304 /prg/WfbM-Beitrag.xls
[05:36:35] 304 /tanz/t-walz.html
[05*18*26] 304 /tanz/t-samba.html
[05*19*59] /web/ExterneLinks.html?www.e-k-i-r.de/gerresheim/senioren/
[05:21:51] 304 /tanz/t-rumba.html
[05:35:39] /web/ExterneLinks.html?www.css-technik.de/
[05:45:24] /web/ExterneLinks.html?vsis-www.informatik.uni-hamburg.de/ergonomie/index.html
[05:46:55] /web/ExterneLinks.html?www.barrierefreies-webdesign.de/
[05:52:56] /web/ExterneLinks.html?www.kommdesign.de/
[05*26*09] 304 /tanz/adtv.html
[05:52:57] /web/ExterneLinks.html?www.drweb.de/
[06:05:42] /web/ExterneLinks.html?jendryschik.de/wsdev/einfuehrung/
[05*26*54] 304 /tanz/t-tango.html
[05*26*56] 304 /tanz/t-slowwalz.html
[05*29*18] 304 /tanz/creaclub.html
[05*50*10] /web/ExterneLinks.html?validator.de.selfhtml.org/
[05:59:32] /web/ExterneLinks.html?www.einfach-fuer-alle.de/
[05*53*05] /web/css-layout.html?blau-links
[06*00*15] 304 /prg/btg-doc6.htm
[06*04*09] /web/ExterneLinks.html?de.selfhtml.org/
[06*04*10] /web/ExterneLinks.html?www.behindertenbeauftragter.de/
[06*06*22] 304 /tanz/ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/
[06*24*27] /web/ExterneLinks.html?www.einfach-fuer-alle.de/artikel/ietext/
28: Googlebot/2.1 (+http://www.googlebot.com/bot.html) *g
Ref: -
[07:15:45] /web/ExterneLinks.html?www.alistapart.com/stories/taminglists/
[07*22*37] /web/ExterneLinks.html?www.tanfa.co.uk/
[07*36*14] 304 /ExterneLinks.html?www.td-rot-weiss-duesseldorf.de/news/news030526.html
[07*42*08] /web/ExterneLinks.html?/www.tanfa.co.uk/
[07*49*40] /web/ExterneLinks.html?www.meyerweb.com/eric/talks/2003/commug/commug.html
[07*53*42] /404.html
[08*00*27] /web/seo.html
* in der Zeitangabe bedeuten, daß ein Spider mit einer anderen (Google-)IP kam.
freundliche Grüße
Ingo