Christian Kruse: Seiten richtig[tm] aus dem Google-Index ausschließen

Moin,

es gibt neue Erkenntnisse, wie man Seiten korrekt und ganz klar aus dem Google-Index ausschließen kann. Die bisher verwandte Methode, den Zugriff via robots.txt zu verbitten funktioniert nur sehr unzuverlässig: wenn der Google-Bot die URL z.B. via externer Verlinkung zu sehen bekommt, greift er die Seite trotzdem ab.

Die von Google beschriebene Methode sicherzustellen, dass etwas nicht im Google-Index landet, ist der noindex-Metatag. Und wenn man etwas aus dem Google-Index entfernen möchte, dann muss man den Zugriff in der robots.txt erlauben und via noindex-Metatag die Indizierung verbieten.

Quelle ist dieser Hackernews-Thread.

LG,
CK

  1. Hallo,

    mal abgesehen davon, dass ich seit Anbeginn immer noch der Meinung bin es müsste umgekehrt sein, also keine automatische Erlaubnis mit manueller Ablehnung, sondern stattdessen einen Metatag als explizite Einwilligung <indexcontent user="all"> oder so ähnlich, frage ich mich wie dein Artikel das bei anderen Anbietern sieht. Bing hat z.B. jahrelang (weiß nicht ob immer noch so) NoIndex in den Robotstxt ignoriert. Beachtet Bing denn den Metatag? Interessant dazu vielleicht auch dies hier.

    lg.

    1. Hallo Lisa,

      […] frage ich mich wie dein Artikel das bei anderen Anbietern sieht.

      Gar nicht. Deshalb schrieb ich ja explizit vom Google-Index. Die Erklärung stammt von Google bzw Google-Mitarbeitern, die können (oder wollen) zu Bing nichts sagen.

      LG,
      CK

  2. Hallo,

    Die von Google beschriebene Methode sicherzustellen, dass etwas nicht im Google-Index landet, ist der noindex-Metatag. Und wenn man etwas aus dem Google-Index entfernen möchte, dann muss man den Zugriff in der robots.txt erlauben und via noindex-Metatag die Indizierung verbieten.

    das ist aber eine auf HTML-Dokumente beschränkte Sicht. Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads? Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

    Ciao,
     Martin

    --
    Computer müssen weiblich sein: Eigensinnig, schwer zu durchschauen, immer für Überraschungen gut - aber man möchte sie nicht missen.
    1. Hallo Martin,

      Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads?

      🤷‍♂️

      Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

      Vermutlich gar nicht. Darüber hat Google sich meines Wissens nach nicht geäussert.

      LG,
      CK

    2. Hallo,

      das ist aber eine auf HTML-Dokumente beschränkte Sicht. Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads? Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

      Sehr interessanter Gedanke, da muss ich glatt auch mal meine Wunschvorstellung überdenken. 😀 Also tatsächlich auch bei mir keine Metatag, sondern doch eine txtdatei. Nur in meinem Fall natürlich eine die die Indexierung und erst recht Cachingveröffenlichung erlaubt, nur wenn explizit vorhanden.

      Danke für den berechtigten Hinweis.

      lg.

    3. das ist aber eine auf HTML-Dokumente beschränkte Sicht. Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads? Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

      Mit dem X-Robots-Tag-HTTP-Header.

      1. Hallo,

        das ist aber eine auf HTML-Dokumente beschränkte Sicht. Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads? Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

        Mit dem X-Robots-Tag-HTTP-Header.

        an sowas dachte ich auch schon, es ist technisch naheliegend.
        Schließt nur leider die Hobby-Webmaster aus, die froh sind, dass sie mit ihren Kenntnissen gerade so aus einem CMS oder einem "Homepage-Baukasten" etwas zaubern können. Die waren mit der robots.txt natürlich besser bedient.

        So long,
         Martin

        --
        Computer müssen weiblich sein: Eigensinnig, schwer zu durchschauen, immer für Überraschungen gut - aber man möchte sie nicht missen.
        1. Hallo

          das ist aber eine auf HTML-Dokumente beschränkte Sicht. Was ist mit anderen Ressourcen? PDF, Audio, Video, Software-Downloads? Wie sollen Webmaster in diese Dateien ein noindex-Meta-Tag einbauen?

          Mit dem X-Robots-Tag-HTTP-Header.

          an sowas dachte ich auch schon, es ist technisch naheliegend.
          Schließt nur leider die Hobby-Webmaster aus, die froh sind, dass sie mit ihren Kenntnissen gerade so aus einem CMS oder einem "Homepage-Baukasten" etwas zaubern können. Die waren mit der robots.txt natürlich besser bedient.

          Diese Gruppe will üblicherweise aber, dass all ihre Inhalte gefunden, indexiert und natürlich auf Seite 1 der Suchergebnisse angezeigt werden. Die brauche diese Technik also üblicherweise nicht.

          Tschö, Auge

          --
          Ein echtes Alchimistenlabor musste voll mit Glasgefäßen sein, die so aussahen, als wären sie beim öffentlichen Schluckaufwettbewerb der Glasbläsergilde entstanden.
          Hohle Köpfe von Terry Pratchett
          1. Hallo Auge,

            Diese Gruppe will üblicherweise aber, dass all ihre Inhalte gefunden, indexiert und natürlich auf Seite 1 der Suchergebnisse angezeigt werden. Die brauche diese Technik also üblicherweise nicht.

            Weiss nicht. Dass einzelne Seiten nicht im Such-Index auftauchen sollen, halte ich für ein durchaus wahrscheinliches Anfänger-Problem. In Ermangelung eines Zugriffsschutzes wird dann halt die URL nicht verlinkt, sondern nur weiter gegeben oder so und die Suchmaschine findet sie über $mechanismus und schon hat man den Salat.

            LG,
            CK

            1. Hallo

              Diese Gruppe will üblicherweise aber, dass all ihre Inhalte gefunden, indexiert und natürlich auf Seite 1 der Suchergebnisse angezeigt werden. Die brauche diese Technik also üblicherweise nicht.

              Weiss nicht. Dass einzelne Seiten nicht im Such-Index auftauchen sollen, halte ich für ein durchaus wahrscheinliches Anfänger-Problem. In Ermangelung eines Zugriffsschutzes wird dann halt die URL nicht verlinkt, sondern nur weiter gegeben oder so und die Suchmaschine findet sie über $mechanismus und schon hat man den Salat.

              Ich glaube, wir definieren „Anfänger“ verschieden. Das was du beschreibst, kommt für mich nach dem Anfängersein. Dann, wenn die Seite steht, man sich zusätzliche Funktionen herbeiwünscht und so überhaupt keine Ahnung davon hat, wie man das umsetzen soll. Dann ist man quasi ein „fortgeschrittener Anfänger“. Die Wünsche gehen über das Anfängersein hinaus, aber die Kenntnisse verweilen im Anfängerstatus. 😀

              Aber natürlich ist das keine feststehende Definition und ich hatte ja in meiner Einschätzung der Notwendigkeit einer solchen Funktion für Personen des Status' „Anfänger“ nicht umsonst ein hervorgehobenes „üblicherweise“ benutzt.

              Tschö, Auge

              --
              Ein echtes Alchimistenlabor musste voll mit Glasgefäßen sein, die so aussahen, als wären sie beim öffentlichen Schluckaufwettbewerb der Glasbläsergilde entstanden.
              Hohle Köpfe von Terry Pratchett
  3. Hallo Christian Kruse,

    das könnten/sollten wir ins Wiki aufnehmen. Ebenso 1UPs Beitrag weiter unten.

    Ich nehm mir ein <I>, in der Hoffnung, dass ich das nicht vergesse.

    Bis demnächst
    Matthias

    --
    Pantoffeltierchen haben keine Hobbys.
    ¯\_(ツ)_/¯
  4. Hello,

    sind die IPs der Google-Bots eigentlich bekannt und verlässlich, oder sind die geheim und/oder wechseln ständig?

    Ist es nicht sogar so, dass Google im Referer verlässlich mitteilt, dass es sich um einen Google-Bot handelt?

    Was der Bot nicht zu sehen bekommt, kann er nicht parsen und daher auch nicht indizieren.

    Glück Auf
    Tom vom Berg

    --
    Es gibt nichts Gutes, außer man tut es!
    Das Leben selbst ist der Sinn.
    1. Hallo TS,

      sind die IPs der Google-Bots eigentlich bekannt und verlässlich, oder sind die geheim und/oder wechseln ständig?

      Beides.

      Ist es nicht sogar so, dass Google im Referer verlässlich mitteilt, dass es sich um einen Google-Bot handelt?

      Der Google-Bot nutzt bekannte IPs und schickt einen Header mit, der ihn identifiziert. Und er nutzt unbekannte IPs und schickt keinen Header mit. Hintergrund ist, dass er Betrügereien erkennen will.

      LG,
      CK

    2. Hallo TS,

      Was der Bot nicht zu sehen bekommt, kann er nicht parsen und daher auch nicht indizieren.

      Inhalte, die du öffentlich zur Verfügung stellst, werden die Suchmaschinen irgendwann zu sehen bekommen.

      Bis demnächst
      Matthias

      --
      Pantoffeltierchen haben keine Hobbys.
      ¯\_(ツ)_/¯