H²O: Suchmaschinen sollen diese HTML-Seite nicht finden

Hallo.

Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.
Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?

Danke H²O

  1. Hi @all!

    Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.
    Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?

    durch die Meta Angabe:
    <meta name="robots" content="noindex">

    bzw. wenn alle folgenden Seite auch verboten sind:
    <meta name="robots" content="nofollow">

    Das ganze lässt sich sicherlich auch hübscher über ne rotobs.txt regeln,
    aber so tuts es auch.

    MfG, Dennis.

    --
    Was man eigentlich immer sagen will:
    SelfHTML und SelfForum sind echt spize!
    Vielen Dank an alle, die mir hier helfen.
    Fragen zu Formularen beantwortet http://tutorial.riehle-web.com
    Meine HP: http://www.riehle-web.com
    So, das wars!
    1. Hallo Dennis,

      durch die Meta Angabe:
      <meta name="robots" content="noindex">

      Es liegt aber immer noch beim entsprechenden Robot, ob er das auch interpretiert.

      bzw. wenn alle folgenden Seite auch verboten sind:
      <meta name="robots" content="nofollow">

      Nein. Das sagt lediglich, dass er enthaltenen Verweisen nicht folgen soll. Die verlinkte Seite kann aber immer noch indiziert werden.

      Das ganze lässt sich sicherlich auch hübscher über ne rotobs.txt regeln,
      aber so tuts es auch.

      Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.

      Einen hundertprozentig funktionierenden Ausschluss von Suchmaschinen-Robots gibt es nicht (ausser HTTP-Auth, Seite loeschen etc.).

      Beste Gruesse

      Jan

      1. Hi @all!

        durch die Meta Angabe:
        <meta name="robots" content="noindex">
        Es liegt aber immer noch beim entsprechenden Robot, ob er das auch interpretiert.

        War ja auch nur als mögliches Beispiel gedacht.

        bzw. wenn alle folgenden Seite auch verboten sind:
        <meta name="robots" content="nofollow">
        Nein. Das sagt lediglich, dass er enthaltenen Verweisen nicht folgen soll. Die verlinkte Seite kann aber immer noch indiziert werden.

        Achso, ja stimmt, Flüchtigkeitsfehler -> nofollow verbietet die Aufnahme der aktuellen Seite, und untersagt das verfolgen der Links, diese Seiten könnn jedoch trotzdem aufgenommen werden.
        So stimmts.

        Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.

        Warum auch nicht? In deinem Beispiel oben, wird es ja auch _doppelt_ erlaubt!
        So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.

        MfG, Dennis.

        --
        Was man eigentlich immer sagen will:
        SelfHTML und SelfForum sind echt spize!
        Vielen Dank an alle, die mir hier helfen.
        Fragen zu Formularen beantwortet http://tutorial.riehle-web.com
        Meine HP: http://www.riehle-web.com
        So, das wars!
        1. Hallo Dennis,

          Achso, ja stimmt, Flüchtigkeitsfehler -> nofollow verbietet die Aufnahme der aktuellen Seite, und untersagt das verfolgen der Links, diese Seiten könnn jedoch trotzdem aufgenommen werden.
          So stimmts.

          Nein ;-)
          "nofollow" verbietet nicht die Aufnahme der Seite in den Index, es sagt lediglich, dass Verweise nicht verfolgt werden sollen.

          Beispiel Google: enthaelt die robots.txt "Disallow:", die Seite jedoch "index" im Meta-Tag, wird sie, wenn der Googlebot sie findet, indiziert.
          Warum auch nicht? In deinem Beispiel oben, wird es ja auch _doppelt_ erlaubt!
          So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.

          Ja, da fehlt ein Slash. Sollte natuerlich "Disallow: /" heissen, sorry.

          Beste Gruesse

          Jan

          1. Hi Jan,

            "nofollow" verbietet nicht die Aufnahme der Seite in den Index, es sagt lediglich, dass Verweise nicht verfolgt werden sollen.

            Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
            " <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."

            Hm, da wird ma halt net schlau draus *g*

            So lange hinter Disallow nix steht, wird alles erlaubt und index in der Seite erlaubt es ja auch.
            Ja, da fehlt ein Slash. Sollte natuerlich "Disallow: /" heissen, sorry.

            achso, dann ist klar.

            MfG, Dennis.

            --
            Was man eigentlich immer sagen will:
            SelfHTML und SelfForum sind echt spize!
            Vielen Dank an alle, die mir hier helfen.
            Fragen zu Formularen beantwortet http://tutorial.riehle-web.com
            Meine HP: http://www.riehle-web.com
            So, das wars!
            1. hi,

              Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
              " <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."

              ist aber trotzdem falsch.

              nofollow besagt - logischerweise - dass die links auf der aktuellen seite nicht verfolgt werden sollen.

              das schlüsselwort für das untersagen der indizierung der aktuellen seite hingegen lautet noindex.

              gruss,
              wahsaga

            2. Hallo,

              Sicher? Ich hab da so nen recht neues Nachschlagewerk, da steht, Zitat:
              " <meta name="robots" content="nofollow"> Verbieten Sie die Aufnahme der aktuellen Seite; erlauben Sie jedoch die Aufnahme von Seiten, auf die diese Seite per Link verweist."

              Das Nachschlagewerk ist Schrott.
              Obige Beschreibung wuerde passen auf:
              <meta name="robots" content="noindex,follow">

              nofollow heisst etwa: "Folge den Links nicht!"

              Siehe:
              http://selfhtml.teamone.de/html/kopfdaten/meta.htm#robots
              http://www.robotstxt.org/wc/meta-user.html
              http://www.seoconsultants.com/meta-tags/robots.htm
              http://www.google.com/bot.html#noindextags

              Gruesse,

              Thomas

              --
              Bitte keine Mails mit Fachfragen - dafuer gibt es das Forum!
              Ich mag es, wenn URLs verlinkt sind (</faq/#Q-19>).
              Oft gestellte PHP-Fragen beantwortet die dclp-FAQ bestens: http://www.dclp-faq.de/
  2. Hallo,

    Wie schaffe ich es, dass Suchmaschienen eine HTML-Seite nicht finden.

    Lass sie zuhause auf Deinem eigenen Rechner.
    Lade sie nicht auf einen Webserver hoch.

    Also, dass man diese nur erreichen kann, wenn man auch die Adresse kennt, bzw. wenn sie verlinkt ist?

    "Geheime URL" ist ein sehr schwacher "Schutz".
    Sobald eine Seite Links nach aussen hat, taucht
    ihre URL z.B. auch in den Logfiles von anderen
    Websites auf, und evtl. machen deren Autoren
    dann einen Link auf Deine Seite. Oder sonst jemand
    macht einen Link auf Deine Seite, ohne dass Du
    es sofort erfaehrst. Auf das Konzept
    "geheime URL => wird nicht gefunden"
    kannst Du also nicht zaehlen.

    Die schon erwaehnten Meta-Tags sowie die robots.txt
    sind die gaengigen Versuche, die Robots fernzuhalten
    bzw. den Suchmaschinen zu verbieten, Seiten zu
    indizieren.

    Gemaess meiner Erfahrung missachtet Google die robots.txt,
    und besucht auch die dort "verbotenen" Verzeichnisse, z.B.
    wenn Links von aussen direkt auf eine solche Seite zeigen.
    Wenn dann in den Seiten ein Meta-Tag im Stil
    <META NAME="robots" CONTENT="index,follow">
    steht, indiziert er die Seiten, obwohl er sie gemaess der robots.txt
    gar nicht haette besuchen duerfen.

    Eine Kombination von Verboten in der robots.txt sowie
    in den Meta-Tags duerfte wohl fuer Google und einige
    andere Suchmaschinen funktionieren.

    Etwas sicherer ist es, das Verzeichnis mit einem Passwortschutz
    zu versehen und die Kombination Benutzername/Kennwort
    auf der Seite anzugeben, von der aus man verlinkt.
    Oder auch im "Realm"-Text, der im Passwort-Eingabe-Fensterchen
    erscheint. Dann koennen "menschliche" Besucher diese Angaben
    abtippen, aber "normal intelligente" Spider bleiben draussen.

    Der einzig wirksame Schutz vor Suchmaschinen-Spidern
    und anderen Robots ist aber wie gesagt, dass man die
    Seiten gar nicht erst online stellt.

    Zu robots.txt und zum Robots-Meta-Tag:
    http://www.robotstxt.org/wc/exclusion.html

    Zu Google:
    http://www.google.com/bot.html
    http://www.google.de/webmasters/faq.html

    Gruesse,

    Thomas

    --
    Bitte keine Mails mit Fachfragen - dafuer gibt es das Forum!
    Ich mag es, wenn URLs verlinkt sind (</faq/#Q-19>).
    Oft gestellte PHP-Fragen beantwortet die dclp-FAQ bestens: http://www.dclp-faq.de/
    1. Hallo Thomas Luethi

      Gemaess meiner Erfahrung missachtet Google die robots.txt,
      und besucht auch die dort "verbotenen" Verzeichnisse, z.B.
      wenn Links von aussen direkt auf eine solche Seite zeigen.

      Na logisch, würde ich genauso machen.
      Auf der Seite, die den Link enthält, ist dies ja nicht verboten.

      Wenn dann in den Seiten ein Meta-Tag im Stil
      <META NAME="robots" CONTENT="index,follow">
      steht, indiziert er die Seiten, obwohl er sie gemaess der robots.txt
      gar nicht haette besuchen duerfen.

      Logisch, der Robot hat die Aufgabe alles zu indizieren, dessen Indizierung nicht ausdrücklich unerwünscht ist.
      Warum soll Google sich für die Einträge in der robots.txt überhaupt noch interessieren, wenn die Indexierung laut Meta-Tag ausdrücklich gewünscht wird?
      Oder anders ausgedrückt:
      Wie sollte Google sich verhalten, wenn die Angaben widersprüchlich sind?

      MFG
      Detlef

      --
      - Wissen ist gut
      - Können ist besser
      - aber das Beste und Interessanteste ist der Weg dahin!
      1. Hallo,

        Warum soll Google sich für die Einträge in der robots.txt überhaupt noch interessieren, wenn die Indexierung laut Meta-Tag ausdrücklich gewünscht wird?

        Ein anstaendiger Spider sollte IMHO bei jeder Domain als erstes
        die robots.txt anschauen. Was dort als "verboten" gekennzeichnet
        ist, sollte er gar nicht erst anschauen, also weder indizieren oder
        archivieren noch den Links folgen.

        http://www.robotstxt.org/wc/norobots.html

        The following example "/robots.txt" file specifies
        that no robots should visit any URL starting with
        "/cyberworld/map/" [...]

        User-agent: *
        Disallow: /cyberworld/map/

        Wie sollte Google sich verhalten, wenn die Angaben widersprüchlich sind?

        Die robots.txt sollte er IMHO staerker gewichten.

        Wenn ich ein Verzeichnis mit der robots.txt "sperre",
        moechte ich dort beliebige Dateien hineinstellen koennen,
        auch solche, in denen zufaellig ein Meta-Tag mit
        "index, follow" steht, und ich moechte davon ausgehen
        koennen, dass kein Robot sie besucht.

        Aber Google haelt sich eben _nicht_ an die robots.txt;
        er schaut die Dateien an und indiziert sie, wenn er
        aufgrund der Meta-Tags der Meinung ist, er solle das tun.

        Mir ist klar, dass man darueber streiten koennte,
        weil es auch keinen offiziellen Standard gibt.

        Fuer mich ist die robots.txt jedenfalls wertlos,
        und ich wende lieber gleich einen Passwortschutz
        fuer die Verzeichnisse an, von denen ich nicht will,
        dass Google sie besucht.

        Gruesse,

        Thomas

        --
        Bitte keine Mails mit Fachfragen - dafuer gibt es das Forum!
        Ich mag es, wenn URLs verlinkt sind (</faq/#Q-19>).
        Oft gestellte PHP-Fragen beantwortet die dclp-FAQ bestens: http://www.dclp-faq.de/
        1. Hallo Thomas

          Die robots.txt sollte er IMHO staerker gewichten.
          ...
          Mir ist klar, dass man darueber streiten koennte,
          weil es auch keinen offiziellen Standard gibt.

          Streiten brauchen wir uns wirklich nicht.
          Ich meine nur, dass ich mich nicht über das Verhalten von Google beschweren brauche, wenn widersprüchliche Angaben existieren und dazu kein offizieller Standard festlegt, welche Angabe stärker gewichtet werden soll.

          Fuer mich ist die robots.txt jedenfalls wertlos,
          und ich wende lieber gleich einen Passwortschutz
          fuer die Verzeichnisse an, von denen ich nicht will,
          dass Google sie besucht.

          Ich betrachte dies differenziert.

          Verzeichnisse, die nur für mich oder einen eng begrenzten Benutzerkreis zur Verfügung stehen sollen, bei denen es wichtig ist, dass Google sie nicht besucht, bekommen einen Passwortschutz.

          Verzeichnisse, die z.B. nur zeitweise Ressourcen enthalten, hier verlinkte Beispiele oder Bilder, Testseiten usw., bei denen ein Besuch durch Google nicht wünschenswert aber auch kein Beinbruch ist,
          bekommen nur den Eintrag in der robots.txt.

          MFG
          Detlef

          --
          - Wissen ist gut
          - Können ist besser
          - aber das Beste und Interessanteste ist der Weg dahin!
          1. Hallo,

            Streiten brauchen wir uns wirklich nicht.

            Einverstanden - Peace! ;-)

            Ich meine nur, dass ich mich nicht über das Verhalten von Google beschweren brauche, wenn widersprüchliche Angaben existieren und dazu kein offizieller Standard festlegt, welche Angabe stärker gewichtet werden soll.

            Auf den "offiziellen" Seiten habe ich noch folgendes gefunden:
            http://www.robotstxt.org/wc/meta-notes.html
              "This tag is meant to provide users who cannot control the robots.txt file at their sites.
               It provides a last chance to keep their content out of search services."

            Der Gedanke bei der Einfuehrung der robots.txt und der Robots-Meta-Tags
            lag also IMHO ganz klar auf dem "Ausschliessen".

            Die Robots-Meta-Tags sollten es den Seitenautoren, die keinen Zugriff
            auf die robots.txt haben, ermoeglichen, in den einzelnen Dateien das
            Spider- und Indizierungs-_Verbot_ auszusprechen - meine Hervorhebung:
            "keep their content OUT of search services".

            Natuerlich ist dadurch immer noch nicht abschliessend definiert, wie sich ein
            Robot verhalten soll, wenn die robots.txt den Besuch eines ganzen Verzeichnisses
            verbietet, in den einzelnen Dateien aber steht, dass er sie indizieren und den
            Links folgen soll.

            Nach meinem Verstaendnis sollte ein anstaendiger Robot, bevor er eine Seite
            abruft und anschaut, zuerst in der robots.txt schauen, ob er sie ueberhaupt
            abrufen und anschauen darf:
            http://www.robotstxt.org/wc/exclusion.html#robotstxt
              "[...] when a Robot vists a Web site, say http://www.foobar.com/, it firsts checks for
              http://www.foobar.com/robots.txt. If it can find this document, it will analyse its contents
              for records like:
                User-agent: *
                Disallow: /
              to see if it is allowed to retrieve the document."

            Wenn also in der robots.txt steht, dass der Robot das Dokument gar nicht abholen soll,
            und wenn der Robot sich daran haelt, dann gibt es auch keinen Widerspruch, weil der
            Robot das Meta-Tag, das ihm das Indizieren erlauben wuerde, gar nie zu Gesicht bekommt...

            So gesehen verstoesst Google IMHO gegen die Vereinbarungen und
            die Idee hinter der robots.txt.

            Historisch gesehen war vermutlich zuerst (Juni 1994) die robots.txt da, und
            die Robots-Meta-Tags kamen erst etwas spaeter (Juni 1996) hinzu.
            So verstehe ich jedenfalls folgenden Abschnitt:
            http://www.kollar.com/robots.html
              "Lastly, we would like to propose some modest extensions to the exclusion standard
              which we feel would help the web based catalogue building community, as well as
              give the creator of a page the ability to control its spidering. These extensions will
              be based on the HTML meta tag."

            Verzeichnisse, die nur für mich oder einen eng begrenzten Benutzerkreis zur Verfügung stehen sollen, bei denen es wichtig ist, dass Google sie nicht besucht, bekommen einen Passwortschutz.

            Sicher sinnvoll.

            Verzeichnisse [...] bei denen ein Besuch durch Google nicht wünschenswert aber auch kein Beinbruch ist, bekommen nur den Eintrag in der robots.txt.

            Auch das kann ich nachvollziehen.

            Ich war eben etwas veraergert, als ich zum ersten Mal feststellte, dass Google
            sich nicht an die robots.txt haelt, und werde seither nicht muede, hier davor
            zu warnen, sich auf die robots.txt zu verlassen.

            Freundliche Gruesse,

            Thomas

            --
            Bitte keine Mails mit Fachfragen - dafuer gibt es das Forum!
            Ich mag es, wenn URLs verlinkt sind (</faq/#Q-19>).
            Oft gestellte PHP-Fragen beantwortet die dclp-FAQ bestens: http://www.dclp-faq.de/