hendrik: frage zur robots.txt

Hallo,

ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?

robots.txt for musterfirma

Zugriff auf alle Dateien erlauben, ausser

User-agent: *
Disallow: /kontakt.html
Disallow: /impressum.html
Disallow: /formular.html

Gruß,
Hendrik.

  1. Hallo hendrik.

    ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

    Die "bösen" Bots, nämlich diejenigen, welche die E-Mails sammeln, scheren sich in aller Regel herzlich wenig um die robots.txt. Nur die "guten" fragen die Datei vorher ab, und diese würdest du mit deinem Vorhaben von den Seiten ausschließen. Dies könnte deswegen schlecht sein, weil es ja durchaus indizierungswürdige Inhalte auf den ausgeschlossenen Seiten geben könnte.

    ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?

    Ja, sieht korrekt aus. Weitere Infos findest du übrigens hier:
    http://de.selfhtml.org/diverses/robots.htm#speicherort_aufbau

    Freundschaft!
    Siechfred

    --
    Punk's not dead: http://www.siechfreds-welt.de/badreligion.shtml
    Dankbarkeit, man spürt sie ja so selten bei den Menschen, und gerade die Dankbarsten finden nicht den Ausdruck dafür, sie schweigen verwirrt, sie schämen sich und tun manchmal stockig, um ihr Gefühl zu verbergen. (Stefan Zweig)
    1. Hallo,

      danke für alle Antworten.

      Mir ist schon klar, dass sich damit die bösen Bots nicht ausschließen lassen, aber ich möchte einfach nur vermeiden, dass die Seiten, die e-Mail-Adressen enthalten von irgendeinem anderen Verzeichnis indexiert werden, wo sie DANN von einem Harvester entdeckt werden könnten.

      Zusätzlich dazu habe ich die E-Mail-Adressen in den auszuschließenden Dokumenten in dezimal/hexadezimaler schreibweise kodiert, was -zumindest heute noch- vielen harvestern probleme bereiten sollte.

      Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird und sich die seriösen Robots an das disallow halten werden, wird sich -im Umkehrschluss- nur ein unseriöser Robot auf diese Seite verlaufen, da sie ja eigentlich in der robots.txt gesperrt ist.
      So kann man zumindest mal sehen, "wer" das so rumschnüffelt - was man mit dieser Info anfangen kann, ist 'ne andere Frage.

      Vielen Dank und Gruß
      H.

      1. Hi,

        Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird

        hier irrst Du bzw. vergißt die Besucher, die sich eine Seite komplett herunterladen - und das sind bei interessanten Seiten durchaus nicht wenige. Und nicht alle Offline-Reader halten sich an die robots.txt.

        freundliche Grüße
        Ingo

  2. Hi,

    ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

    Da bist Du aber sehr optimistisch, wenn Du glaubst, daß sich ausgerechnet die Robots, die nach E-Mail-Adressen für spam suchen, an die Vorgaben der robots.txt halten.
    Ich glaube nicht, daß die sich davon abhalten lassen.

    cu,
    Andreas

    --
    MudGuard? Siehe http://www.Mud-Guard.de/
    Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
  3. Hallo,

    Deine 'robots.txt' ist syntaktisch korrekt. Nur wird eben jedes
    Programm, das Webseiten für Spammer nach Email-Adressen abgrast, auf
    diese Vorgaben pfeifen.

    Gruß, Jan

  4. robots.txt for musterfirma

    Zugriff auf alle Dateien erlauben, ausser

    User-agent: *
    Disallow: /kontakt.html
    Disallow: /impressum.html
    Disallow: /formular.html

    hy

    Mache noch eine Leerzeile zwischen jeder Zeile
    robots.txt verhindert nicht das indexieren, sondern bewirkt lediglich, dass der indexierte Inhalt bei Suchmascheinen nicht mit in die Suche miteinbezogen wird.
    Ich würde also deinen Text nicht als Spamfilter verwenden.
    Sondern einfach im Sinne; stehe nicht unnötig anderen vor der Sonne.

    In diesem Sinne zum Beispiel auch:

    Disallow: /links.html

    Disallow: /veraltet/

    Gegen das email Spamming brauchst du andere Methoden.

    • Serverseitiges Mail Script
    • oder Mailadresse im Klartext mit ersetztem @
    • oder Mailadresse als Bild

    Tipp: bringe deine Emailadresse nur auf einer Kontaktseite an, die sonst keinen besonderen Inhalt hat
    Tipp: publitziere nie Emailadressen Dritter

    1. Hallo

      • oder Mailadresse im Klartext mit ersetztem @

      hilft diese vorgehensweise gegen spam?
      http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung

      die mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?

      gruss
      x-for-u

      1. hilft diese vorgehensweise gegen spam?
        http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung

        die mailadresse steht ja korrekt im quelltext.

        Hi,

        Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.
        Dann noch eher die Adresse als Grafik einbinden und auf den mailto verzichten.

        Gruß

        Thorsten

        1. Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.

          das ist bestimmt richtig, und der ganze aufwand wird sicher relativ unwirksam sein, wenn man einerseits versucht, die "sichtbare" verwendung des @-zeichens zu verhindern, andererseits aber die e-mail-adresse unverfälscht in den metatags angibt.

          was aber, wenn man aber nun nicht ausschliesslich auf serverseitige skriptlösungen setzen möchte, weil eine e-mail-adresse ausdrücklich angegeben sein SOLL, und man lediglich verhindern möchte, dass "dumme maschinen" diese adressen auslesen.
          und wenn man außerdem die seite relativ barrierefrei gestalten will?

          meiner meinung nach bringt dann eine konsequente kodierung der adresse in hexadezimale und dezimale werte (am besten gemischt, weil damit so einige harvester probleme haben) zusammen mit dem verzicht auf die angabe der mail-adresse im quellcode durchaus etwas. als anhaltspunkt bleibt dem harvester ja so NUR der mailto:-link, aus dem er dann aber vielleicht eine adresse ausliest, die er nicht "entschlüsseln" kann.

          ein guter harvester kann sich wahrscheinlich auch seinen teil denken, wenn er auf etwas stösst, was lediglich dadurch verschlüsselt ist, dass es mittendrin die zeichen "(at)" und hintendran ".de" enthält.

          gruss,
          h.

      2. Hallo!

        http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung

        Was bringt es, zur Darstellung der @-Zeichen, (ät) ASCII-Codiert(heißt das so?) zu schreiben, und nicht, wie auch in Refetenzbereich, ihre eigene ASCII Codierung zu benutzten?

        Peter

        (PS: Über die Interpunktur unterhalten wir uns dann später!)

      3. hilft diese vorgehensweise gegen spam?
        http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung

        die mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?

        hy

        Du solltest auf die mailto methode verzichten.
        da es um eine Feuerwehrseite geht, würde ich unbedingt eine
        serverseitige Kontaktmethode empfehlen.
        das heisst, gar keine maillinks oder dergleichen anbieten.

        Das heisst ein Formular, das ein script auf dem Server aufruft.
        Die Weiterleitungs-Mailadresse(n) steht/en dann in einem nicht öffentlich zugänglichen File, das vom Script ausgelesen wird.
        Da verschiedene Zele angesprochen werden, müsstest du im Formular eine Rubrik als hidden input angeben, um dann die Zieladresse richtig zuzuordnen.

        zur Notiz.
        Was mailrobots auslesen können ist nicht genau zu sagen.
        ich vermute dass diese ein
           name(at)domain.ch
        durchaus richtig erkennen.
        Sie lesen übrigens das Ankertag aus, und nicht deine Linkbeschriftung.
        Darum wird der Versuch, Spam auf diese weise zu umgehen etwas benutzerunfreundlich
        und ich empfehle ein Script, dass das Senden von Formulardaten an den gewünschten Empfänger serverseitig abwickelt.

        mfg Beat

        1. hi

          ist nicht meine seite, hab mich nur gewundert ob das wirklich was bringt.

          gruss
          x-for-u