frage zur robots.txt von Jan L., 15.07.2004 11:01

frage zur robots.txt

hendrik 15.07.2004 10:45

html

Hallo,

ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?

robots.txt for musterfirma

Zugriff auf alle Dateien erlauben, ausser

User-agent: *
Disallow: /kontakt.html
Disallow: /impressum.html
Disallow: /formular.html

Gruß,
Hendrik.

Beitrag melden

– Informationen zu den Bewertungsregeln

Mit robots.txt Mail-Bots ausschließen
Siechfred Homepage des Autors 15.07.2004 10:57

projektverwaltung
– Informationen zu den Bewertungsregeln
Hallo hendrik.

ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

Die "bösen" Bots, nämlich diejenigen, welche die E-Mails sammeln, scheren sich in aller Regel herzlich wenig um die robots.txt. Nur die "guten" fragen die Datei vorher ab, und diese würdest du mit deinem Vorhaben von den Seiten ausschließen. Dies könnte deswegen schlecht sein, weil es ja durchaus indizierungswürdige Inhalte auf den ausgeschlossenen Seiten geben könnte.

ist die folgende robots.txt korrekt, wenn ich die darin angegebenen html-dateien NICHT indexieren möchte?

Ja, sieht korrekt aus. Weitere Infos findest du übrigens hier:
http://de.selfhtml.org/diverses/robots.htm#speicherort_aufbau

Freundschaft!
Siechfred

--
Punk's not dead: http://www.siechfreds-welt.de/badreligion.shtml
Dankbarkeit, man spürt sie ja so selten bei den Menschen, und gerade die Dankbarsten finden nicht den Ausdruck dafür, sie schweigen verwirrt, sie schämen sich und tun manchmal stockig, um ihr Gefühl zu verbergen. (Stefan Zweig)
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Mit robots.txt Mail-Bots ausschließen
  
  hendrik 15.07.2004 11:16
  
  projektverwaltung
  – Informationen zu den Bewertungsregeln
  Hallo,
  
  danke für alle Antworten.
  
  Mir ist schon klar, dass sich damit die bösen Bots nicht ausschließen lassen, aber ich möchte einfach nur vermeiden, dass die Seiten, die e-Mail-Adressen enthalten von irgendeinem anderen Verzeichnis indexiert werden, wo sie DANN von einem Harvester entdeckt werden könnten.
  
  Zusätzlich dazu habe ich die E-Mail-Adressen in den auszuschließenden Dokumenten in dezimal/hexadezimaler schreibweise kodiert, was -zumindest heute noch- vielen harvestern probleme bereiten sollte.
  
  Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird und sich die seriösen Robots an das disallow halten werden, wird sich -im Umkehrschluss- nur ein unseriöser Robot auf diese Seite verlaufen, da sie ja eigentlich in der robots.txt gesperrt ist.
  So kann man zumindest mal sehen, "wer" das so rumschnüffelt - was man mit dieser Info anfangen kann, ist 'ne andere Frage.
  
  Vielen Dank und Gruß
  H.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Mit robots.txt Mail-Bots ausschließen
    
    Ingo Turski Homepage des Autors 15.07.2004 11:39
    
    projektverwaltung
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    Außerdem ist eine der auszuschließenden Dateien ausschließlich als Mausefalle für die Harvester gedacht, denn es existiert lediglich ein versteckter link zu dieser seite: Da also kein realer User die Seite aufrufen wird
    
    hier irrst Du bzw. vergißt die Besucher, die sich eine Seite komplett herunterladen - und das sind bei interessanten Seiten durchaus nicht wenige. Und nicht alle Offline-Reader halten sich an die robots.txt.
    
    freundliche Grüße
    Ingo
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
frage zur robots.txt
MudGuard Homepage des Autors 15.07.2004 10:59

html
– Informationen zu den Bewertungsregeln
Hi,

ich habe eine Frage zur robots.txt-datei. ich möchte drei dateien vom indexieren ausschliessen, nämlich jene, auf denen e-mail-adressen enthalten sind, um zu vermeiden, irgendwann mit spam zugeschüttet zuu werden.

Da bist Du aber sehr optimistisch, wenn Du glaubst, daß sich ausgerechnet die Robots, die nach E-Mail-Adressen für spam suchen, an die Vorgaben der robots.txt halten.
Ich glaube nicht, daß die sich davon abhalten lassen.

cu,
Andreas

--
MudGuard? Siehe http://www.Mud-Guard.de/
Fachfragen per E-Mail halte ich für unverschämt und werde entsprechende E-Mails nicht beantworten. Für Fachfragen ist das Forum da.
Beitrag melden

–
Informationen zu den Bewertungsregeln
frage zur robots.txt
Jan L. 15.07.2004 11:01

html
– Informationen zu den Bewertungsregeln
Hallo,

Deine 'robots.txt' ist syntaktisch korrekt. Nur wird eben jedes
Programm, das Webseiten für Spammer nach Email-Adressen abgrast, auf
diese Vorgaben pfeifen.

Gruß, Jan
Beitrag melden

–
Informationen zu den Bewertungsregeln
frage zur robots.txt
Beat 15.07.2004 12:11

html
– Informationen zu den Bewertungsregeln
robots.txt for musterfirma
Zugriff auf alle Dateien erlauben, ausser
User-agent: *
Disallow: /kontakt.html
Disallow: /impressum.html
Disallow: /formular.html

hy

Mache noch eine Leerzeile zwischen jeder Zeile
robots.txt verhindert nicht das indexieren, sondern bewirkt lediglich, dass der indexierte Inhalt bei Suchmascheinen nicht mit in die Suche miteinbezogen wird.
Ich würde also deinen Text nicht als Spamfilter verwenden.
Sondern einfach im Sinne; stehe nicht unnötig anderen vor der Sonne.

In diesem Sinne zum Beispiel auch:

Disallow: /links.html

Disallow: /veraltet/

Gegen das email Spamming brauchst du andere Methoden.
- Serverseitiges Mail Script
- oder Mailadresse im Klartext mit ersetztem @
- oder Mailadresse als Bild
Tipp: bringe deine Emailadresse nur auf einer Kontaktseite an, die sonst keinen besonderen Inhalt hat
Tipp: publitziere nie Emailadressen Dritter
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. ist dies eine lösung für die ersetzung von @?
  
  x-for-u 15.07.2004 12:34
  
  html
  – Informationen zu den Bewertungsregeln
  Hallo
  oder Mailadresse im Klartext mit ersetztem @
  hilft diese vorgehensweise gegen spam?
  http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
  
  die mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?
  
  gruss
  x-for-u
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. ist dies eine lösung für die ersetzung von @?
    
    Thorsten 15.07.2004 13:07
    
    html
    
    – Informationen zu den Bewertungsregeln
    hilft diese vorgehensweise gegen spam?
    http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
    
    die mailadresse steht ja korrekt im quelltext.
    
    Hi,
    
    Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.
    Dann noch eher die Adresse als Grafik einbinden und auf den mailto verzichten.
    
    Gruß
    
    Thorsten
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. ist dies eine lösung für die ersetzung von @?
      
      hendrik 15.07.2004 15:54
      
      html
      
      – Informationen zu den Bewertungsregeln
      
      Du hast meiner Meinung nach recht. Die korrekte Adresse steht im Quellcode und wird meiner Meinung nach dann auch gefunden. Ich denke die mailto-Link werden das erste sein, nach dem die Robots suchen.
      
      das ist bestimmt richtig, und der ganze aufwand wird sicher relativ unwirksam sein, wenn man einerseits versucht, die "sichtbare" verwendung des @-zeichens zu verhindern, andererseits aber die e-mail-adresse unverfälscht in den metatags angibt.
      
      was aber, wenn man aber nun nicht ausschliesslich auf serverseitige skriptlösungen setzen möchte, weil eine e-mail-adresse ausdrücklich angegeben sein SOLL, und man lediglich verhindern möchte, dass "dumme maschinen" diese adressen auslesen.
      und wenn man außerdem die seite relativ barrierefrei gestalten will?
      
      meiner meinung nach bringt dann eine konsequente kodierung der adresse in hexadezimale und dezimale werte (am besten gemischt, weil damit so einige harvester probleme haben) zusammen mit dem verzicht auf die angabe der mail-adresse im quellcode durchaus etwas. als anhaltspunkt bleibt dem harvester ja so NUR der mailto:-link, aus dem er dann aber vielleicht eine adresse ausliest, die er nicht "entschlüsseln" kann.
      
      ein guter harvester kann sich wahrscheinlich auch seinen teil denken, wenn er auf etwas stösst, was lediglich dadurch verschlüsselt ist, dass es mittendrin die zeichen "(at)" und hintendran ".de" enthält.
      
      gruss,
      h.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
  2. ist dies eine lösung für die ersetzung von @?
    
    Peter Sen 15.07.2004 13:32
    
    html
    
    – Informationen zu den Bewertungsregeln
    Hallo!
    
    http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
    
    Was bringt es, zur Darstellung der @-Zeichen, (ät) ASCII-Codiert(heißt das so?) zu schreiben, und nicht, wie auch in Refetenzbereich, ihre eigene ASCII Codierung zu benutzten?
    
    Peter
    
    (PS: Über die Interpunktur unterhalten wir uns dann später!)
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
  3. ist dies eine lösung für die ersetzung von @?
    
    Beat 15.07.2004 14:47
    
    html
    
    – Informationen zu den Bewertungsregeln
    hilft diese vorgehensweise gegen spam?
    http://www.koeniz.ch/azsuche2/anzeigen.cfm?rubrik=4310&key=verwaltung
    
    die mailadresse steht ja korrekt im quelltext. wird diese nicht von den spamrobotern gefunden?
    
    hy
    
    Du solltest auf die mailto methode verzichten.
    da es um eine Feuerwehrseite geht, würde ich unbedingt eine
    serverseitige Kontaktmethode empfehlen.
    das heisst, gar keine maillinks oder dergleichen anbieten.
    
    Das heisst ein Formular, das ein script auf dem Server aufruft.
    Die Weiterleitungs-Mailadresse(n) steht/en dann in einem nicht öffentlich zugänglichen File, das vom Script ausgelesen wird.
    Da verschiedene Zele angesprochen werden, müsstest du im Formular eine Rubrik als hidden input angeben, um dann die Zieladresse richtig zuzuordnen.
    
    zur Notiz.
    Was mailrobots auslesen können ist nicht genau zu sagen.
    ich vermute dass diese ein
    name(at)domain.ch
    durchaus richtig erkennen.
    Sie lesen übrigens das Ankertag aus, und nicht deine Linkbeschriftung.
    Darum wird der Versuch, Spam auf diese weise zu umgehen etwas benutzerunfreundlich
    und ich empfehle ein Script, dass das Senden von Formulardaten an den gewünschten Empfänger serverseitig abwickelt.
    
    mfg Beat
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. ist dies eine lösung für die ersetzung von @?
      
      x-for-u 16.07.2004 11:51
      
      html
      
      – Informationen zu den Bewertungsregeln
      
      hi
      
      ist nicht meine seite, hab mich nur gewundert ob das wirklich was bringt.
      
      gruss
      x-for-u
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

hendrik: frage zur robots.txt

frage zur robots.txt

Mit robots.txt Mail-Bots ausschließen

ist dies eine lösung für die ersetzung von @?

frage zur robots.txt

robots.txt for musterfirma

Zugriff auf alle Dateien erlauben, ausser

Mit robots.txt Mail-Bots ausschließen

Mit robots.txt Mail-Bots ausschließen

Mit robots.txt Mail-Bots ausschließen

frage zur robots.txt

frage zur robots.txt

frage zur robots.txt

robots.txt for musterfirma

Zugriff auf alle Dateien erlauben, ausser

ist dies eine lösung für die ersetzung von @?

ist dies eine lösung für die ersetzung von @?

ist dies eine lösung für die ersetzung von @?

ist dies eine lösung für die ersetzung von @?

ist dies eine lösung für die ersetzung von @?

ist dies eine lösung für die ersetzung von @?