PDF-Dokumente aus dem GOOGLE-Index streichen
apstrakt
- sonstiges
Hallo!
GOOGLE hat ja die Angewohnheiten, auch PDF-Dokumente in den Index aufzunehmen und sogar zu Archivieren. Wie kann ich es erreichen, daß GOOGLE PDF-Dokumente wieder aus dem Index streicht und in Zukunft solche auch nicht aufnimmt, v.a. nicht archiviert. Die HTML-Seite, von der aus auf die PDF-Dokumente gelinkt wird, sollte jedoch nach Möglichkeit schon indizierbar bleiben. [Notfalls kann ich das aber auch umstricken.]
Ich kenne nur die Methode mit den META-Tags bei HTML-Dokumenten, doch das nützt bei PDFs wohl kaum.
Auch steht in SelfHTML was über eine andere Methode mit einer Datei robots.txt, die ich aber nicht verwenden kann, da sie nur bei Domains (www.domainname.xx) funktioniert, meine Homepage liegt aber in einem Unterverzeichnis (www.domainname/.../meineHomePage/).
Schonmal Danke für jede Hilfe.
Tschau,
Axel
Hallo!
GOOGLE hat ja die Angewohnheiten, auch PDF-Dokumente in den Index aufzunehmen und sogar zu Archivieren. Wie kann ich es erreichen, daß GOOGLE PDF-Dokumente wieder aus dem Index streicht und in Zukunft solche auch nicht aufnimmt, v.a. nicht archiviert. Die HTML-Seite, von der aus auf die PDF-Dokumente gelinkt wird, sollte jedoch nach Möglichkeit schon indizierbar bleiben. [Notfalls kann ich das aber auch umstricken.]
Ich kenne nur die Methode mit den META-Tags bei HTML-Dokumenten, doch das nützt bei PDFs wohl kaum.
Auch steht in SelfHTML was über eine andere Methode mit einer Datei robots.txt, die ich aber nicht verwenden kann, da sie nur bei Domains (www.domainname.xx) funktioniert, meine Homepage liegt aber in einem Unterverzeichnis (www.domainname/.../meineHomePage/).
Schonmal Danke für jede Hilfe.
Tschau,
Axel
Aus SelfHTML:
<meta name="robots" content="nofollow">. Damit erlauben Sie einem Suchprogramm, Inhalte aus der aktuellen HTML-Datei an seine Suchdatenbank zu übermitteln (nofollow = nicht folgen). Sie verbieten dem Suchprogramm jedoch, untergeordnete Dateien Ihres Projekts, zu denen Verweise führen, zu besuchen.
Alles klar!?
<meta name="robots" content="nofollow">. Damit erlauben Sie einem Suchprogramm, Inhalte aus der aktuellen HTML-Datei an seine Suchdatenbank zu übermitteln (nofollow = nicht folgen). Sie verbieten dem Suchprogramm jedoch, untergeordnete Dateien Ihres Projekts, zu denen Verweise führen, zu besuchen.
Alles klar!?
Nee, leider nicht. Diese Methode kenne ich natürlich. Das Problem ist: ich möchte erreichen, daß zwar die gelinkten HTML-Seiten von den Suchrobots in den Index aufgenommen werden, aber nicht die PDFs. Doch das ist jetzt egal, weil ich die PDFs jetzt einfach auf eine separate HTML-Seite packe, wo ich dann mit "nofollow" arbeite.
Mein eigentliches Problem ist ja, daß sich ein PDF im Google-Archiv befindet, das ich aber nicht archiviert wissen will. Also: wie kann ich Google anweisen, das PDF-Dokument wieder aus dem Archiv zu löschen?
Ich habe jetzt die Architektur meiner Homepage derart geändert, daß die PDFs in Zukunft von Suchrobotern nicht mehr erreicht werden und außerdem in einen neuen Ordner gesteckt, so daß die in den Suchmaschen gespeicherten Links ins Leere laufen. Aber das Google-Archiv bleibt davon natürlich unberührt.
Was auf jeden Fall funktionieren müßte: Google explizit darum bitten, etwas aus dem Archiv zu streichen. Steht jedenfalls auf der Google-Seite irgendwo: "Links, die nicht indiziert wurden, sind nicht im Cache enthalten. Das gilt ebenso für Websites, bei denen uns die Besitzer gebeten haben, sie aus dem Index zu löschen."
So eilig und schlimm ist es bei mir aber nicht, daß ich mit der Streichung nicht warten könnte bis zum nächsten Durchlauf der Suchroboter. Wie es aussieht muß ich also direkt an Google mailen und nachfragen!? [Die meisten Leute haben wohl eher das Problem, in den Index aufgenommen als gelöscht zu werden.]
tut mir leid, daß ich das forum genervt habe.
selber suchen hat nämlich gebracht:
http://www.google.de/intl/de/remove.html
hier steht alles.
sorry!