Können SPAM-Spider CSS? von Sven Rautenberg, 29.06.2006 12:51

SELF-Forum

Können SPAM-Spider CSS?

Sven Rautenberg Homepage des Autors 29.06.2006 12:51

sonstiges

– Informationen zu den Bewertungsregeln

Moin!

ich frage mich was ein SPAM-Abgraser aus sowas herauslesen würde:

Ich mich auch.

(ich habe es nur für dieses Bsp. direkt in das Tag gefummelt mit "style=", bitte keine Belehrungen dazu ;) )

Das dürfte genau das Problem sein. Steht das "display:none" direkt im Tag drin, kann ein Spider das rausfiltern, ohne CSS wirklich verstehen zu müssen.

Wird es allerdings durch Klassen oder IDs zugewiesen, muß der Spider nicht nur die jeweilige HTML-Datei spidern, sondern auch noch alles eingebundene CSS dazu. Und das HTML parsen, einen DOM-Baum aufbauen, das CSS parsen, dem DOM-Baum zuweisen, nach den Spezifitätsregeln die gültigen Anzeigeoptionen ermitteln und dann entscheiden, welche HTML-Elemente angezeigt werden, und welche nicht.

Vielleicht implementieren neue Spider irgendwann einfach die Gecko-Engine, um genau das zu leisten, und greifen dann den Text der Webseite durch "Bildschirmfoto" oder Copy&Paste ab, um zu spidern. Kostet natürlich eine ganze Menge an Rechenzeit - aber wer tausende Bots zum Mailen verfügbar hat, hat auch genug verteilte Rechenleistung zum Spidern.

Spannend in dieser Sache dürfte beispielsweise auch die umgekehrte Schriftrichtung sein. Man schreibt also moc.elpmaxe@otto und läßt diese Adresse richtigherum anzeigen, indem man "direction:rtl" angibt. Das Problem mit jeder Art von "quelltext-verschleierter Anzeige" ist aber: Die Adresse nur anzeigen reicht oft nicht aus, es soll am liebsten ein Link sein, den man klickt. Und dann scheitern wieder alle Versuche der Verschleierung.

Und da man sowieso Spam kriegt, egal ob man die Mailadresse verschleiert oder nicht, ist die Investition in einen guten Spamfilter ohnehin zu tätigen. Ist sogar besser, man kriegt (zuerst) viel Spam aufgrund der veröffentlichten Mailadresse, dann kann man den Filter schneller besser trainieren. :)

- Sven Rautenberg

--
My sssignature, my preciousssss!

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Sven Rautenberg: Können SPAM-Spider CSS?

Beitrag lesen

Können SPAM-Spider CSS?

Können SPAM-Spider CSS?