wahsaga: Neu bei Google: Google Sitemaps

hi,

heise.de: Google Sitemaps: Indexierung auf Geheiß des Webmasters

Google testet einen neuen, kostenlosen Dienst für Webmaster, der die Zusammenarbeit von Web-Verantwortlichen und Suchmaschine verbessern soll. Beim Google Sitemaps getauften Dienst übermittelt der Webmaster eine Sitemap, also ein Verzeichnis aller Seiten seiner Site, an Google. Wann immer sich Inhalte auf der Site ändern, liefert er eine neue Version der Sitemap an Google aus. [...]
Google erhofft sich laut FAQ aber, einen besseren Überblick über die Site-Struktur zu erhalten und mit Hilfe der Sitemaps besser zu crawlen

https://www.google.com/webmasters/sitemaps/login

Google Sitemaps bietet für Sie Folgendes:

  • Bessere Abdeckung durch Crawler, damit die Nutzer einen größeren Teil Ihrer Webseiten finden
  • Aktuellere Suchergebnisse
  • Intelligenteres Crawling, da Sie spezifische Informationen zu all Ihren Webseiten bereitstellen können, z. B. das Datum der letzten Aktualisierung oder wie häufig eine Seite geändert wird

vielversprechend - oder doch eher vorprogrammierter rohrkrepierer (weil's den spammern vermutlich wieder mal am meisten nützen wird) ...?

gruß,
wahsaga

--
/voodoo.css:
#GeorgeWBush { position:absolute; bottom:-6ft; }
  1. Hi,

    vielversprechend - oder doch eher vorprogrammierter rohrkrepierer (weil's den spammern vermutlich wieder mal am meisten nützen wird) ...?

    Ich finde es eher nützlich für andere Zwecke als nur dem Suchmaschinen-SPAMing ("Suchmaschinen-Optimierung"): Assistive Useragents und Browserextensions könnten eine vorgegebene Indexdatei nutzen um die Sitemap der Domain in einer Form vorzuhalten, die es Benutzern ermöglich, besser durch die Site zu navigieren.
    Beispielsweise kann ich mir vorstellen, eine Firefox-Extension zu coden, die so eine Datei ließt und daus eine Link-Rel-Navi baut, sofern eine solche noch nicht auf der Site ist.

    Ansonsten ist die Idee, so eine Datei liegen zu haben nichts neues. Die BITV, Prio 1, §13.3 fordert es indirekt sogar. Neu ist nur die Nutzung für Spider.

    Blöd und sinnlos halte ich die Idee, daß man nun bei Suchmaschine X die Sitemap-Dateien erst registrieren soll. Die Suchmaschinen sind selbst gefordert zu sorgen, daß ihr Index eine gute Qualität an Content aufweist. Und nicht nur aus eingereichten Seiten von Suchmaschinen-SPAMern besteht.

    Ciao,
      Wolfgang

    1. Hallo xwolf,

      Beispielsweise kann ich mir vorstellen, eine Firefox-Extension zu coden, die so eine Datei ließt und daus eine Link-Rel-Navi baut, sofern eine solche noch nicht auf der Site ist.

      Gut das du sagst, so etwas hab ich noch nicht, muss ich gleich mal einbauen :-)

      Blöd und sinnlos halte ich die Idee, daß man nun bei Suchmaschine X die Sitemap-Dateien erst registrieren soll. Die Suchmaschinen sind selbst gefordert zu sorgen, daß ihr Index eine gute Qualität an Content aufweist. Und nicht nur aus eingereichten Seiten von Suchmaschinen-SPAMern besteht.

      Stimmt, die Angabe einer XML-Sitemap über ein <link /> Element würde
      ich da bevorzugen, gibts das schon / gibts da schon eine Syntax?

      Gruß
      Alexander Brock

      --
      SelfCode: ie:{ fl:( br:> va:) ls:[ fo:) rl:( n4:? ss:| de:> js:( ch:| sh:( mo:} zu:}
      http://againsttcpa.com
      1. hi,

        Stimmt, die Angabe einer XML-Sitemap über ein <link /> Element würde
        ich da bevorzugen, gibts das schon / gibts da schon eine Syntax?

        na ja, <link rel="contents" ...> hielte ich dafür eigentlich für angenbracht.

        gruß,
        wahsaga

        --
        /voodoo.css:
        #GeorgeWBush { position:absolute; bottom:-6ft; }
        1. Hi,

          na ja, <link rel="contents" ...> hielte ich dafür eigentlich für angenbracht.

          rel="toc" und rel="index" gibt es.

          Ciao,
            Wolfgang

    2. Hi,

      Blöd und sinnlos halte ich die Idee, daß man nun bei Suchmaschine X die Sitemap-Dateien erst registrieren soll. Die Suchmaschinen sind selbst gefordert zu sorgen, daß ihr Index eine gute Qualität an Content aufweist. Und nicht nur aus eingereichten Seiten von Suchmaschinen-SPAMern besteht.

      Das finde ich auch. Es spräche nichts dagegen, einen MetaTag hierfür einzufügen oder einen Eintrag in der robots.txt zu definieren.

      Was nicht nur mich stört, daß keine Verschachtelung von <url> vorgesehen ist. Somit fällt die Nutzung außerhalb für diesen Zweck meist flach -> doppelte Arbeit.

      Irgendwie bezeichnend finde ich auch, daß Google zwar Dokumentationsseiten und sogar ein Login eingerichtet hat, aber der in <urlset xmlns="http://www.google.com/schemas/sitemap/0.84"> angegebene Namespace einen 404 liefert... naja, die Google-Seiten haben ja auch noch nicht einmal einen Doctype.

      freundliche Grüße
      Ingo

      1. Hallo,

        Blöd und sinnlos halte ich die Idee, daß man nun bei Suchmaschine X die Sitemap-Dateien erst registrieren soll. Die Suchmaschinen sind selbst gefordert zu sorgen, daß ihr Index eine gute Qualität an Content aufweist. Und nicht nur aus eingereichten Seiten von Suchmaschinen-SPAMern besteht.
        Das finde ich auch. Es spräche nichts dagegen, einen MetaTag hierfür einzufügen oder einen Eintrag in der robots.txt zu definieren.

        doch, dagegen spricht sehr wohl etwas. Aus Deinen eigenen Logdaten kannst Du die zeitlichen Abstände ermitteln, die google zwischen dem Durchsuchen läßt. Das Konzept der gezielten Datenanlieferung, um ein erneutes Durchsuchen anzuregen, ist wohl aus dem Konzept von Froogle entlehnt und macht bei täglichen Anpassungen (Portalnews/Artikel etc.) durchaus Sinn.

        Im Gegensatz zu Lösungen wie MetaTag/"robots.news.txt" (oder was auch immer) muß nicht _mehrmals täglich alle Webs_ nach dieser durchsucht werden, sondern es werden geziehlt neue Inhalte in die Suchmaschinen eingelesen. Dieses ist mit einem MetaTag/"robots.news.txt" in dieser Präzision nicht machbar.

        Vermutlich ergab sich diese Möglichkeit aus den guten Erfahrungen aus dem Projekt Froogle, daß dieses Konzept verfolgt.

        Allgemein sehe ich das Risiko, Spamern hier vor den reichgedeckten Gabentisch zu platzieren, als gering an, da davon auszugehen ist, daß google bei falschen Benachrichtigungen ein Web eher keine weitere Beachtung zukommen läßt. Aber mir bleibt in einer ganz anderen Richtung ein Nachgeschmack auf der Zunge...

        Gruß aus Berlin!
        eddi

        1. Hi,

          doch, dagegen spricht sehr wohl etwas. [...]
          Im Gegensatz zu Lösungen wie MetaTag/"robots.news.txt" [...]

          Du hast mich falsch verstanden. Ich meinte, diese sitemap über MetaTag oder in der robots.txt für Google (und andere Suchmaschinen, die das evtl. mal nutzen wollen) zu referenzieren, anstatt das bei Google anzumelden.

          freundliche Grüße
          Ingo

          1. Hi Ingo,

            doch, dagegen spricht sehr wohl etwas. [...]
            Im Gegensatz zu Lösungen wie MetaTag/"robots.news.txt" [...]

            Du hast mich falsch verstanden. Ich meinte, diese sitemap über MetaTag oder in der robots.txt für Google (und andere Suchmaschinen, die das evtl. mal nutzen wollen) zu referenzieren, anstatt das bei Google anzumelden.

            Dann habe ich Dich richtig verstanden. Es bleibt bei dieser, Deiner Variante das faktische Problem des mehrfachen Durchsuchens aller Webs des Internets um eine, sagen wir zumindest, Stundenaktualität für neue News zu erreichen. Diese Aktualität will google vermutlich damit erreichen.
            So gibt es seit einiger Zeit zu "wichtigen" Tagesthemen auch "News-Ergebnisse für $SUCHBEGRIFF - Meldungen des Tages" bei google.

            Das Konzept von Metatags, oder einer "robots.news.txt" ist gekettet an das Auslesen der Inhalte. Dies ist mit Aktualität im Hinblick auf die riesigen Datenmengen nicht vereinbar.

            Gruß aus Berlin!
            eddi

            1. ...neue News...

              Auweia; ich bitte dies zu entschuldigen!

              Gruß aus Berlin!
              eddi

            2. Hi,

              Das Konzept von Metatags, oder einer "robots.news.txt" ist gekettet an das Auslesen der Inhalte. Dies ist mit Aktualität im Hinblick auf die riesigen Datenmengen nicht vereinbar.

              Du verstehst nicht - oder ich.
              Wenn z.B. für robots.txt folgender Inhalt definiert würde: sitemap=<url>
              oder wenn ein eintsprechender Eintrag lauten würde: Allow: /sitemap.xml

              Dann würde Google (und andere Suchmaschimen) umgehend die Info haben, daß und wo diese neue sitemap zu finden ist.

              freundliche Grüße
              Ingo

              1. Re:

                Das Konzept von Metatags, oder einer "robots.news.txt" ist gekettet an das Auslesen der Inhalte. Dies ist mit Aktualität im Hinblick auf die riesigen Datenmengen nicht vereinbar.
                Du verstehst nicht - oder ich.
                Wenn z.B. für robots.txt folgender Inhalt definiert würde: sitemap=<url>
                oder wenn ein eintsprechender Eintrag lauten würde: Allow: /sitemap.xml

                Dann würde Google (und andere Suchmaschimen) umgehend die Info haben, daß und wo diese neue sitemap zu finden ist.

                Suche in Deinen Logdaten, wie oft google die robots.txt ausliest und Du wirst mich verstehen, wenn Du auch noch bedenkst welche Datenmassen alle (noch zu erstellenden) sitemap.xml-Dateien enthalten werden! In machen Web ändern sich täglich mehrmals Dokumenteninhalte, in der Mehrheit der Webs geschieht dies nicht. Würden alle Webs mehrfach aufgesucht werden schätze ich mit nicht weniger als 80% an sinnlosem, da das Web sich nicht änderte, Traffic.

                Genau an diesem Punkt krankt m. E. das Model von Hinterlegten sitemaps im Vergleich zur Anlieferung bei google/Suchmaschinen. Dies zeigt sich im Übrigen auch an Deiner Wortwahl. Bitte refektire doch mal über "umgehend" im Bezug auf "aktuell".

                Gruß aus Berlin!
                eddi

                1. Hi,

                  Dann würde Google (und andere Suchmaschimen) umgehend die Info haben, daß und wo diese neue sitemap zu finden ist.

                  Suche in Deinen Logdaten, wie oft google die robots.txt ausliest und Du wirst mich verstehen

                  mindestens täglich. Und nein, ich verstehe nicht, warum die Information, wo diese neue Sitemap zu finden ist, besser über ein Login-Formular mitgeteilt werden sollte.

                  Genau an diesem Punkt krankt m. E. das Model von Hinterlegten sitemaps im Vergleich zur Anlieferung bei google/Suchmaschinen. Dies zeigt sich im Übrigen auch an Deiner Wortwahl. Bitte refektire doch mal über "umgehend" im Bezug auf "aktuell".

                  Informiere Dich bitte bei Google über das neue System. Hier wird keine Sitemap an Google übertragen, sondern die Adresse dieser mitgeteilt: https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2.

                  freundliche Grüße
                  Ingo

                  1. Re:

                    Informiere Dich bitte
                    https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2.

                    *lach*

                    https://www.google.com/webmasters/sitemaps/docs/de/faq.html#account
                    Zitat:
                    "Zum Generieren und Einreichen einer Sitemap.."

                    https://www.google.com/webmasters/sitemaps/docs/de/faq.html#s4
                    Zitat:
                    "... Ihre Sitemap zur Aufnahme in Google Sitemaps einzureichen..."

                    Da Steht etwas von Einreichen, also dem Froogle-Prizip. Einreichen ist eine aktive Handlung des Webmasters, crawlen nicht! Darin liegt das ganze Mißverständnis zwischen uns beiden und den anderen, die hier von <link>- oder <meta>-Erweiterungen träumen. Es muß doch langsam klar geworden sein, das dies konzeptioneller Spam ist, der dem Thema -Aktualität von Suchmaschinen- grundsätzlich (durch die Datenflut) im Wege steht.

                    mindestens täglich. Und nein, ich verstehe nicht, warum die Information, wo diese neue Sitemap zu finden ist, besser über ein Login-Formular mitgeteilt werden sollte.

                    Das freut mich für Deine Webs, ich habe andere Erfahrungen.
                    Nun, wenn ich es richtig verstehe(, und wie Du ja auch indirekt mir vorwirst, bin ich in uninformiert,) so gibt es dafür anscheinend dem SOAP ganz ähnlich ein eigenes "Protokoll" https://www.google.com/webmasters/sitemaps/docs/de/protocol.html.

                    Sicher ließe ich das Login-Formular durch eine im Web hinterlegte Datei umgehen... (Ab diesem Punkt denke ich, wir drehen uns im Kreis).

                    Gruß aus Berlin!
                    eddi

                    1. Hi,

                      https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2.

                      *lach*

                      wieso?
                        "3. Geben Sie die URL Ihrer Sitemap ein, und klicken Sie auf "URL einreichen". "

                      Da Steht etwas von Einreichen, also dem Froogle-Prizip.

                      Lies weiter in https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2:
                        "4. Wie reiche ich eine Sitemap nach einer Änderung erneut ein?
                           "Wenn sich URLs in Ihrer Sitemap geändert haben oder bereits aufgelistete Seiten aktualisiert wurden [...]
                           "Falls Sie einen automatisierten Auftrag zum regelmäßigen Generieren und Einreichen von Sitemaps eingerichtet haben (empfohlen), müssen Sie den Link zum erneuten Einreichen in Ihrem Google Sitemaps-Konto nicht mehr betätigen."

                      Ich verstehe dies so, daß die Sitemap auf der Präsenz zu aktualisieren und von Google die Aktualisierungen auszulesen sind.

                      freundliche Grüße
                      Ingo

                      1. Re:

                        https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2.

                        *lach*

                        wieso?

                        Nur wenn man das Wesentliche weglöscht, kann man diese Frag stellen.

                        "3. Geben Sie die URL Ihrer Sitemap ein, und klicken Sie auf "URL einreichen". "

                        Dieses Zitat betrifft nur Kontoinhaber. Ich glaube, wir sind uns dort einig, daß das gleichzeitig erneute Kontobewerben in diesem Zusammenhang einen zweifelhaften Nachgeschmack erzeugen. Aber es ist doch auch klar ersichtlich, daß es keines Kontos bei google für das Nutzen der sitemaps bedarf, sondern die Möglichkeit des HTTP-gestützen Einreichens besteht.

                        Da Steht etwas von Einreichen, also dem Froogle-Prizip.
                        Lies weiter in https://www.google.com/webmasters/sitemaps/docs/de/faq.html#a2:
                          "4. Wie reiche ich eine Sitemap nach einer Änderung erneut ein?
                             "Wenn sich URLs in Ihrer Sitemap geändert haben oder bereits aufgelistete Seiten aktualisiert wurden [...]
                             "Falls Sie einen automatisierten Auftrag zum regelmäßigen Generieren und Einreichen von Sitemaps eingerichtet haben (empfohlen), müssen Sie den Link zum erneuten Einreichen in Ihrem Google Sitemaps-Konto nicht mehr betätigen."

                        Für den Fall, daß man

                        1. Inhaber eines google-Kontos ist und
                          2. innerhabl dieses eine regelmäßige Einreichung
                             konfiguriert hat, was empfolen wird...

                        ...sucht google nach Konfiguration die sitemap regelmäßig auf.

                        Ich verstehe dies so, daß die Sitemap auf der Präsenz zu aktualisieren und von Google die Aktualisierungen auszulesen sind.

                        Nur, wenn man ein Konto hat. Andernfalls, so ist auch nachzulesen, wird man Updates von sitemaps per HTTP neu einreichen müssen. Somit hat sich google auf recht einfache Weise unnötigen Traffic erspart, da nicht mehr nach (bei Dir anscheinend täglichen) Intervallen tendenziell gleichbleibende sitemaps abzugrasen sind.

                        Gruß aus Berlin!
                        eddi

                        1. Hi,

                          Ich verstehe dies so, daß die Sitemap auf der Präsenz zu aktualisieren und von Google die Aktualisierungen auszulesen sind.

                          Nur, wenn man ein Konto hat. Andernfalls, so ist auch nachzulesen, wird man Updates von sitemaps per HTTP neu einreichen müssen. Somit hat sich google auf recht einfache Weise unnötigen Traffic erspart, da nicht mehr nach (bei Dir anscheinend täglichen) Intervallen tendenziell gleichbleibende sitemaps abzugrasen sind.

                          zum einen glaube ich, daß die meisten Nutzer ein Konto einrichten werden; nicht zuletzt, weil einem das quasi nahegelegt wird, aber auch, weil man sich einen zusätzlichen Arbeitsgang spart.
                          Andererseits: glaubst Du wirklich, daß dieses bisschen Traffic für Google in irgend einer Weise von Bedeutung wäre? Nur mal von meinen Seiten ausgegangen würde Google weit über 90% Traffic sparen, wenn ich mich anmelden würde und Google nur noch die Sitemap - und hin und wieder geänderte Seiten - anfordern müßte.

                          freundliche Grüße
                          Ingo

                          1. Re:

                            Andererseits: glaubst Du wirklich, daß dieses bisschen Traffic für Google in irgend einer Weise von Bedeutung wäre?

                            Ja. Google ist eine AG; mir liegt derzeit nur ein anderen logischen Gesichtpunkte vor, der mich daran zweifel lassen würden. Beispielsweise sind rund 6000 Dokumente unter http://de.selfhtml.org/ abgelegt. Ich gehe von einer URI-Länge von 50 Byte aus. Das Template mit kurzer Angabe in <lastmod> hat eine Größe von 112 Byte:

                            6000*(100+50) => 879 kB (ca.)

                            Es ist auch der klare Wille von google, daß man diese sitemaps in komprimierte Version hinterlegt. Auch dies ist mir Indiz genug weiterhin davon auszugehen, daß google hier Trafficersparniss im Sinn hatte.

                            Ich schätze die Größe eine http://de.selfhtml.org/sitemap.xml.gz auf 300 kB. Bei mehrmalig täglichem Auslesen für (so gestehst Du ja auch) 90%igen Unsinn der Aktion wird sich die AG wohl etwas dabei gedacht haben. Dabei scheint selfHTML einem als vergleichsweise groß nur geht google von weitaus größeren Datein aus.

                            https://www.google.com/webmasters/sitemaps/docs/de/protocol.html#sitemapXMLExample
                            Zitat:
                            "...Please note that your uncompressed Sitemap file may not be larger than 10MB..."

                            Sicher sehe ich auch die weitaus lukrative möglichkeit hier googleeigene Konten unters Volk zu bringen.

                            Gruß aus Berlin!
                            eddi

                            1. Hi,

                              Es ist auch der klare Wille von google, daß man diese sitemaps in komprimierte Version hinterlegt. Auch dies ist mir Indiz genug weiterhin davon auszugehen, daß google hier Trafficersparniss im Sinn hatte.

                              Natürlich will Google damit Traffic sparen. Aber das geschieht doch bereits in erheblichem Umfang, wenn nur noch die Sitemap ausgelesen und nicht mehr jede einzelne Datei angefordert werden muß. Und allein ein HTTP-Headeraustausch ist umfangreicher als einer dieser Sitemap-Einträge.
                              Aber spekulieren wir doch weiter, was Google bezweckt:
                              Alle Anzeichen deuten darauf hin, daß Google die Login-Methode wünscht und hierbei die periodische aktive Abholung der Sitemaps, am besten komprimiert. Warum sonst ist die Loginseite zur Startseite geworden oder die Hinweise auf die Alternative URL-Übermittlung eher versteckt?

                              Sicher sehe ich auch die weitaus lukrative möglichkeit hier googleeigene Konten unters Volk zu bringen.

                              Bestimmt ist dies ein zusätzlicher Nebeneffekt, auch um den Aufwand dieser Aktion zu rechtfertigen.

                              freundliche Grüße
                              Ingo

      2. Hi Ingo,

        der in <urlset xmlns="http://www.google.com/schemas/sitemap/0.84"> angegebene Namespace einen 404 liefert...

        Warum auch nicht?

        „Der Namensraumname sollte, um seinen Zweck zu erfüllen, einzigartig und dauerhaft sein. Es ist nicht notwendig, dass er direkt für den Empfang eines Schemas (sofern eines existiert) verwendet werden kann. Uniform Resource Names [RFC2141] sind ein Beispiel für eine Syntax, die mit diesen Zielen entwickelt wurde. Es soll jedoch erwähnt werden, dass auch normale URLs so verwendet werden können, dass sie diesen gleichen Vorstellungen entsprechen.“ [XML-NAMES]

        Heißt das, wenn der URI mit "http:" beginnt, dass sich dann eine Ressource dahinter verbergen muss?

        Ist natürlich good practice, unter dem URI wirklich etwas vorzufinden; vorzugsweise etwas den Namensraum Erklärendes.

        Gruß,
        Gunnar

        --
        “I got my finger on the trigger / But I don’t know who to trust” (Bruce Springsteen, Devils and Dust)
  2. Hallo,

    meinen ein Dank an wahsaga für den Link.

    Alles in allem muß man google hier Kapitulation gegenüber dem Zustand liederlich(?) ungenutzten Möglichkeiten, die das HTT-Protokoll alleine bietet, bescheinigen. Dies ist kein Fingerzeig auf google, sondern viel mehr auf uns alle (mich eingeschlossen), die wir Webs unterhalten und einige sogar Webs gestallten oder Hosten.
    Aber sehen wir uns eine solche sitemap.xml einmal an:

      
    <?xml version="1.0" encoding="UTF-8"?>  
    <urlset xmlns="http://www.google.com/schemas/sitemap/0.84">  
       <url>  
          <loc>http://www.yoursite.com/</loc>  
          <lastmod>2005-01-01</lastmod>  
          <changefreq>monthly</changefreq>  
          <priority>0.8</priority>  
       </url>  
       <!-- weitere Definitionen -->  
    </urlset>  
    
    

    Ich erkenne Last-Modified und Expires wieder. Was mich verwundert, ist, das google in all den Jahren nicht Content-MD5 konsequent von den Webmasteren eingefordert hat. Gerade letzteres hätte so immensen Traffic in vergangenen Jahren einsparen können.
    All diese Header lassen sich in allermeisten Situationen mit Scriptsprachen auch ohne weiteres generieren.

    <priority>0.8</priority>

    An der Stelle gibt es kein Gleichnis in HTTP. Dort hätte man ohne weiteres auf ein <link>- oder <meta>-Tag ausweichen können, wenn man gewollt hätte. Durch die sitemaps sehe ich aber eine kommende Hürden für Neulinge der Materie -Webpublikation-.

    In dem Sinne Glückwunsch den Webdesignern, es werden bald mehr Spezialisten benötigt.

    Gruß aus Berlin!
    eddi