Der Martin: robots.txt - externe links

Beitrag lesen

Hallo,

unter beispiel-hhhgggzz.de befinden sich (irgendwo) mehrere pdf-dateien.

nein, denn diese Domain ist nicht einmal registriert!
Bitte befasse dich mal mit RFC 2606, die ist kurz und braucht damit nicht viel Zeit. Darin werden extra für anonyme Beispiele einige Domainnamen reserviert, wie etwa example.org oder example.net, damit man nicht durch die Angabe einer Phantasiedomain, die tatsächlich existieren könnte, jemandem auf den Schlips tritt. Berühmte Missbrauchs-Domains sind seite.de, domain.de oder test.de, auch wenn deren Inhaber sich vielleicht mittlerweile damit abgefunden haben.

die robots.txt sieht so aus:

User-agent: ia_archiver
Disallow: /

User-agent: *
Disallow: /

Im Prinzip schließt du Suchmaschinen, die sich an die Vereinbarung halten, also komplett aus.

auf einige der pdf-dateien wird durch externe links verwiesen. wieso tauchen die dateien in suchmaschinen auf.

Existiert die robots.txt schon immer, oder war die Indizierung vielleicht früher "erlaubt"? Wenn die Ergebnisse mal im Index der Suchmaschinen drin sind, ist es schwer, sie wieder wegzukriegen.

was muss ich tun, um das zu verhindern??

Dich direkt an die Betreiber der Suchmaschinen wenden und um Löschung der Einträge bitten. Wenn du Glück hast, gibt's ein Online-Formular dafür.

So long,
 Martin

--
why the heck do you jerk think, that wir ein doppelposting nicht bemerken, wenn you zwischendurch the sprache wechselst?
  (wahsaga)