frage zur robots.txt
hendrik
- html
Hallo,
ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.
ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?
User-agent: *
Disallow: /kontakt.html
Disallow: /impressum.html
Disallow: /formular.html
Gruß,
Hendrik.
Hallo hendrik.
ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.
Die "bösen" Bots, nämlich diejenigen, welche die E-Mails sammeln, scheren sich in aller Regel herzlich wenig um die robots.txt. Nur die "guten" fragen die Datei vorher ab, und diese würdest du mit deinem Vorhaben von den Seiten ausschließen. Dies könnte deswegen schlecht sein, weil es ja durchaus indizierungswürdige Inhalte auf den ausgeschlossenen Seiten geben könnte.
ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?
Ja, sieht korrekt aus. Weitere Infos findest du übrigens hier:
http://de.selfhtml.org/diverses/robots.htm#speicherort_aufbau
Freundschaft!
Siechfred
Hallo,
danke für alle Antworten.
Mir ist schon klar, dass sich damit die bösen Bots nicht ausschließen lassen, aber ich möchte einfach nur vermeiden, dass die Seiten, die e-Mail-Adressen enthalten von irgendeinem anderen Verzeichnis indexiert werden, wo sie DANN von einem Harvester entdeckt werden könnten.
Zusätzlich dazu habe ich die E-Mail-Adressen in den auszuschließenden Dokumenten in dezimal/hexadezimaler schreibweise kodiert, was -zumindest heute noch- vielen harvestern probleme bereiten sollte.
Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird und sich die seriösen Robots an das disallow halten werden, wird sich -im Umkehrschluss- nur ein unseriöser Robot auf diese Seite verlaufen, da sie ja eigentlich in der robots.txt gesperrt ist.
So kann man zumindest mal sehen, "wer" das so rumschnüffelt - was man mit dieser Info anfangen kann, ist 'ne andere Frage.
Vielen Dank und Gruß
H.
Hi,
Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird
hier irrst Du bzw. vergißt die Besucher, die sich eine Seite komplett herunterladen - und das sind bei interessanten Seiten durchaus nicht wenige. Und nicht alle Offline-Reader halten sich an die robots.txt.
freundliche Grüße
Ingo
Hi,
ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.
Da bist Du aber sehr optimistisch, wenn Du glaubst, daß sich ausgerechnet die Robots, die nach E-Mail-Adressen für spam suchen, an die Vorgaben der robots.txt halten.
Ich glaube nicht, daß die sich davon abhalten lassen.
cu,
Andreas
Hallo,
Deine 'robots.txt' ist syntaktisch korrekt. Nur wird eben jedes
Programm, das Webseiten für Spammer nach Email-Adressen abgrast, auf
diese Vorgaben pfeifen.
Gruß, Jan
robots.txt for musterfirma
Zugriff auf alle Dateien erlauben, ausser
User-agent: *
Disallow: /kontakt.html
Disallow: /impressum.html
Disallow: /formular.html
hy
Mache noch eine Leerzeile zwischen jeder Zeile
robots.txt verhindert nicht das indexieren, sondern bewirkt lediglich, dass der indexierte Inhalt bei Suchmascheinen nicht mit in die Suche miteinbezogen wird.
Ich würde also deinen Text nicht als Spamfilter verwenden.
Sondern einfach im Sinne; stehe nicht unnötig anderen vor der Sonne.
In diesem Sinne zum Beispiel auch:
Disallow: /links.html
Disallow: /veraltet/
Gegen das email Spamming brauchst du andere Methoden.
Tipp: bringe deine Emailadresse nur auf einer Kontaktseite an, die sonst keinen besonderen Inhalt hat
Tipp: publitziere nie Emailadressen Dritter
Hallo
- oder Mailadresse im Klartext mit ersetztem @
hilft diese vorgehensweise gegen spam?
http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
die mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?
gruss
x-for-u
hilft diese vorgehensweise gegen spam?
http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltungdie mailadresse steht ja korrekt im quelltext.
Hi,
Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.
Dann noch eher die Adresse als Grafik einbinden und auf den mailto verzichten.
Gruß
Thorsten
Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.
das ist bestimmt richtig, und der ganze aufwand wird sicher relativ unwirksam sein, wenn man einerseits versucht, die "sichtbare" verwendung des @-zeichens zu verhindern, andererseits aber die e-mail-adresse unverfälscht in den metatags angibt.
was aber, wenn man aber nun nicht ausschliesslich auf serverseitige skriptlösungen setzen möchte, weil eine e-mail-adresse ausdrücklich angegeben sein SOLL, und man lediglich verhindern möchte, dass "dumme maschinen" diese adressen auslesen.
und wenn man außerdem die seite relativ barrierefrei gestalten will?
meiner meinung nach bringt dann eine konsequente kodierung der adresse in hexadezimale und dezimale werte (am besten gemischt, weil damit so einige harvester probleme haben) zusammen mit dem verzicht auf die angabe der mail-adresse im quellcode durchaus etwas. als anhaltspunkt bleibt dem harvester ja so NUR der mailto:-link, aus dem er dann aber vielleicht eine adresse ausliest, die er nicht "entschlüsseln" kann.
ein guter harvester kann sich wahrscheinlich auch seinen teil denken, wenn er auf etwas stösst, was lediglich dadurch verschlüsselt ist, dass es mittendrin die zeichen "(at)" und hintendran ".de" enthält.
gruss,
h.
Hallo!
http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
Was bringt es, zur Darstellung der @-Zeichen, (ät) ASCII-Codiert(heißt das so?) zu schreiben, und nicht, wie auch in Refetenzbereich, ihre eigene ASCII Codierung zu benutzten?
Peter
(PS: Über die Interpunktur unterhalten wir uns dann später!)
hilft diese vorgehensweise gegen spam?
http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltungdie mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?
hy
Du solltest auf die mailto methode verzichten.
da es um eine Feuerwehrseite geht, würde ich unbedingt eine
serverseitige Kontaktmethode empfehlen.
das heisst, gar keine maillinks oder dergleichen anbieten.
Das heisst ein Formular, das ein script auf dem Server aufruft.
Die Weiterleitungs-Mailadresse(n) steht/en dann in einem nicht öffentlich zugänglichen File, das vom Script ausgelesen wird.
Da verschiedene Zele angesprochen werden, müsstest du im Formular eine Rubrik als hidden input angeben, um dann die Zieladresse richtig zuzuordnen.
zur Notiz.
Was mailrobots auslesen können ist nicht genau zu sagen.
ich vermute dass diese ein
name(at)domain.ch
durchaus richtig erkennen.
Sie lesen übrigens das Ankertag aus, und nicht deine Linkbeschriftung.
Darum wird der Versuch, Spam auf diese weise zu umgehen etwas benutzerunfreundlich
und ich empfehle ein Script, dass das Senden von Formulardaten an den gewünschten Empfänger serverseitig abwickelt.
mfg Beat
hi
ist nicht meine seite, hab mich nur gewundert ob das wirklich was bringt.
gruss
x-for-u