Hallo Michael,
wie sind sie wieder hinein gekommen? Hat Dich der GoogleBot neu besucht und Dein Web traversiert?
naja, irgendwo sind die alten Seiten, die es inzwischen nicht mehr
gibt, mal verlinkt gewesen, viele davon hier im Selfforum. Nachdem
sie aus dem Google-Index raus waren, kamen sie beim nächsten Such-
lauf dann wieder rein, obwohl der Googlebot einen 404 oder 410 be-
kommen hat.
Du kannst Dir die Möglichkeiten der Content Negotiation zunutze machen und das Ergebnis eines Seitenzugriffs vom HTTP-Header "UserAgent" abhängig machen: Normale Besucher bekommen die normale Seite, der "UserAgent: GoogleBot" bekommt einen HTTP-Status 404 oder irgendwas in der Art.
http://www.google.com/search?filter=0&q=inurl%3Aeinspender+site%3Aeinspender.de
sind 31 Einträge bei Google, keiner davon dürfte im Index stehen,
weil jede der Seiten entweder 301, 404, 410 zurückgibt oder über
die robots.txt geblockt ist. Diese Einstellungen sind so schon
seit vielen Monaten, zuletzt habe ich am 02.01.2003 (!) mal die
index.html geändert, alle anderen sind schon seit letztem Jahr so,
per robots.txt ist afaik schon alles seit mehr als zwei Jahren
gesperrt. Kurzum, Google ist es letztendlich egal, was ich da wo
nicht indiziert haben will, was irgendwo mal verlinkt wurde, wird
in den Index aufgenommen, egal ob es die Seite noch gibt oder
nicht. So scheint es mir zumindest.
Wobei ich gerade sehe, mit 404 liefere ich wohl nix aus, was aber
dann auch wieder den Grund hat, dass 410 ja der korrekte Status-
code ist, wenn es die Ressource nicht mehr gibt. Und dann wäre da
ja noch die robots.txt, ich verstehe es nicht ;-)
Viele Grüße,
Stefan
(Das ist einer der wenigen Fälle, wo eine serverseitige Browserweiche wirklich Sinn macht, denke ich.)
Was Du nicht auslieferst, kann er nicht indexieren.
Viele Grüße
Michael