hanns: robots.txt - externe links

hallo

unter beispiel-hhhgggzz.de befinden
sich (irgendwo) mehrere pdf-dateien. diese sollen nicht
in suchmaschinen (insbesondere in der größten)
auftauchen. tun sie aber trotzdem.

___________

die robots.txt sieht so aus:

User-agent: ia_archiver
Disallow: /

User-agent: *
Disallow: /

_____________

auf einige der pdf-dateien wird durch externe
links verwiesen. wieso tauchen die dateien in
suchmaschinen auf. was muss ich tun, um das zu
verhindern??

gruss
hanns

  1. Hallo,

    unter beispiel-hhhgggzz.de befinden sich (irgendwo) mehrere pdf-dateien.

    nein, denn diese Domain ist nicht einmal registriert!
    Bitte befasse dich mal mit RFC 2606, die ist kurz und braucht damit nicht viel Zeit. Darin werden extra für anonyme Beispiele einige Domainnamen reserviert, wie etwa example.org oder example.net, damit man nicht durch die Angabe einer Phantasiedomain, die tatsächlich existieren könnte, jemandem auf den Schlips tritt. Berühmte Missbrauchs-Domains sind seite.de, domain.de oder test.de, auch wenn deren Inhaber sich vielleicht mittlerweile damit abgefunden haben.

    die robots.txt sieht so aus:

    User-agent: ia_archiver
    Disallow: /

    User-agent: *
    Disallow: /

    Im Prinzip schließt du Suchmaschinen, die sich an die Vereinbarung halten, also komplett aus.

    auf einige der pdf-dateien wird durch externe links verwiesen. wieso tauchen die dateien in suchmaschinen auf.

    Existiert die robots.txt schon immer, oder war die Indizierung vielleicht früher "erlaubt"? Wenn die Ergebnisse mal im Index der Suchmaschinen drin sind, ist es schwer, sie wieder wegzukriegen.

    was muss ich tun, um das zu verhindern??

    Dich direkt an die Betreiber der Suchmaschinen wenden und um Löschung der Einträge bitten. Wenn du Glück hast, gibt's ein Online-Formular dafür.

    So long,
     Martin

    --
    why the heck do you jerk think, that wir ein doppelposting nicht bemerken, wenn you zwischendurch the sprache wechselst?
      (wahsaga)
    1. [...] oder test.de, auch wenn deren Inhaber sich vielleicht mittlerweile damit abgefunden haben.

      Besonders der Spamfilter der Stiftung Warentest tut mir leid, es gibt sicher viele Helden die anstatt test@example.com oder vergleichbares liefer mal test [at] test [dot] de notieren :)

      Dich direkt an die Betreiber der Suchmaschinen wenden und um Löschung der Einträge bitten. Wenn du Glück hast, gibt's ein Online-Formular dafür.

      Für fremde Domains? Wohlkaum.

      1. Für fremde Domains? Wohlkaum.

        also es macht mir nix, dass extern
        auf die pdf-dateien verwiesen wird.
        sie sollen nur nicht in suchmaschinen auftauchen.

        gibt es denn eine möglichkeit pdf-dateien
        von der indizierung auszuschließen, also quasi
        durch irgendetwas in der pdf-datei selbst??

      2. Hallo,

        [...] oder test.de, auch wenn deren Inhaber sich vielleicht mittlerweile damit abgefunden haben.
        Besonders der Spamfilter der Stiftung Warentest tut mir leid

        och, er wächst an seinen Aufgaben. ;-)

        Dich direkt an die Betreiber der Suchmaschinen wenden und um Löschung der Einträge bitten. Wenn du Glück hast, gibt's ein Online-Formular dafür.
        Für fremde Domains? Wohlkaum.

        Wieso fremde? Er will doch nur, dass Verweise auf seinen eigenen Webspace aus dem Index fliegen.

        Ciao,
         Martin

        --
        Zwei Mäuse treiben's miteinander. Sagt der Mäuserich: "Hoffentlich ist nicht wieder alles für die Katz."
  2. auf einige der pdf-dateien wird durch externe
    links verwiesen. wieso tauchen die dateien in
    suchmaschinen auf. was muss ich tun, um das zu
    verhindern??

    Du kannst nicht verhindern, dass Ressourcen auf anderen Domains indiziert werden - außer du hast auf jene Domains zugriff.

    Auch wenn du ein nofollow plazieren würdest, hätte das keinen Effekt.