Hallo, ich habe ein praktische Frage, die zwar nicht unmittelbar etwas mit HTML zu tun hat, aber große Auswirkungen haben kann.
Ich kenne drei Möglichkeiten der Zugangs-/Scan-Begrenzung:
- die robots.txt
Dort verbiete ich den Zugriff auf Dateitypen wie PDFs oder einzelne Ordner; wer sich nicht daran hält, landet auf meiner schwarzen Liste; funktioniert ganz gut, nachdem die ohnehin robots-ignoranten Crawler aussortiert wurden.
- die .htaccess
Hier steht das Gleiche in grün wirksam:
<FilesMatch "\.(png|jpe?g|webp|gif|mp4|mp3)$">
Header set X-Robots-Tag "noindex"
</FilesMatch>
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
- Direkt auf der Seite im <head>
Ich habe derzeit noch ein <meta name="robots" content="noindex,nofollow">
eingebunden. Das funktioniert zu meiner Überraschung sehr gut - bisher wird die Seite noch von keiner Suchmaschine gelistet. Zwar kamen die ersten Besucher aus Fernost (und -west) bereits wenige Stunden nach Registrierung der Domain, aber die Zahl der (unnötig bis unerwünschten) Zugriffe liegt noch erfreulich niedrig.
Dass die Seite nicht auffindbar ist, soll jedoch kein Dauerzustand bleiben. Zwar verfolgt die Seite keinerlei kommerzielle Interessen, aber eine Auffindbarkeit auch ohne genaue Kenntnis des Domainnamens sollte dennoch gegeben sein. Dazu brauche ich nur noindex
wieder zu entfernen, das ist schon klar.
Aber es gibt Fallstricke. Ich habe beispielsweise für manche Beiträge eine Bewertungsfunktion in Form zweier als Buttons getarnter Links. Sollte ein Robot einen dieser Links anwählen (und sich für das voten des anderen disqualifizieren), verfälscht das die Bewertung und Beteiligung. Hier wäre ein rel="nofollow"
im <a href=...>
das Mittel der Wahl, oder?
Ein anderes Problem ist, dass ich neben nicht zu indizierenden Dokumenten (PDF's) auf der Startseite unterschiedliche Beiträge aufführe. Einige davon dürfen oder sollen indiziert werden, während andere eher nur für menschliche und bereits auf der Seite befindliche Besucher gedacht sind.
Und hier lautet meine Frage: Wie kann ich für solche <article>
ein Finetuning vornehmen, so dass Google und Co einzelne davon indizieren, andere aber links liegen lassen?