Chris: Mail-Adressen in PDF und Flash wirklich im Klartext lesbar?

Hallo!

Ich lese momentan ein (älteres) Buch über Spam-Abwehr. Darin wird u.a. beschrieben, wie man E-Mail-Adressen auf Internetseiten vor Web Crawlern verbergen kann. Der Autor geht hierbei auch auf die Möglichkeit ein, Mail-Adressen in PDF- und Flash-Dateien zu verstecken. Diese Möglichkeit wäre allerdings unsicher, da PDF und Flash automatisch ausgelesen werden könnten, weil diese Dateien >eine Beschreibung der Seite< enthielten.

Beschreibung der Seite< hört sich nun so nach Seitenbeschreibungs-Sprache an. Und falls ich mich nicht täusche, dann sind damit Sprachen wie HTML gemeint; wo der darzustellende Inhalt von Tags eingeschlossen wird, welche die Darstellung regeln, während alles in einem einfachen Texteditor eingegeben werden kann - also als Klartext vorliegt.

Ich weiß auch, dass Google PDFs auslesen kann. Ich habe daher testweise zum Writer aus der Open Office-Suite gegriffen und ein Dokument erstellt, das ich danach in ein PDF habe exportieren lassen. Ich konnte allerdings nur eine einzige Mail-Adresse auslesen. Und zwar musste ich diese dazu extra als Hyperlink definieren. Wenn ich diese als einfachen Text eingegeben habe, konnte ich diese nicht mehr aus dem sonstigen „Gekräusel“ herauslesen. Mit Flash-Dateien scheint das überhaupt nicht zu funktionieren.

Ich habe es auch mal mit einem Hexmonitor versucht. Aber auch damit habe ich den Text nicht mehr auslesen können. Ist das Buch (2005) nicht mehr auf dem aktuellen Stand? Komprimieren und/oder verschlüsseln die neuen Versionen von PDF und Flash die enthaltenen Texte? Die müssten doch trotzdem irgendwie auslesbar sein? Oder werden die als Vektoren abgelegt? Das wäre doch total ineffizient. Oder mache ich irgendwas falsch?  Wie macht Google das denn? Sind Mail-Adressen in PDF- und Flash-Dateien nun sicher oder nicht?

  1. Hi,

    Ich konnte allerdings nur eine einzige Mail-Adresse auslesen. Und zwar musste ich diese dazu extra als Hyperlink definieren. Wenn ich diese als einfachen Text eingegeben habe, konnte ich diese nicht mehr aus dem sonstigen „Gekräusel“ herauslesen.

    Hier gibt es ein Tools namens pdf2txt:
    http://www.chip.de/downloads/PDF2TXT-3.2_13011980.html
    http://www.comp.eonworks.com/scripts/convert_pdf_to_text-20040418.html

    Hab noch keins davon ausprobiert, aber laut Beschreibung können sie den Text aus PDFs in ein ASCII-File schreiben. ASCII-Files kann man dann leicht parsen und Mail-Adressen herauslesen.

    Es gibt aber sicher auch Module/Funktionen für Perl oder PHP (und bestimmt auch für die meisten anderen Programmiersprachen) mit denen du sowas selber nachprogrammieren könntest.

    mfG,
    steckl

    1. Hier gibt es ein Tools namens pdf2txt:

      Hab noch keins davon ausprobiert, aber laut Beschreibung können sie den Text aus PDFs in ein ASCII-File schreiben. ASCII-Files kann man dann leicht parsen und Mail-Adressen herauslesen.

      Danke! Das werde ich die Tage mal ausprobieren. Dann kann ich auch Rückmeldung geben.

      Es gibt aber sicher auch Module/Funktionen für Perl oder PHP (und bestimmt auch für die meisten anderen Programmiersprachen) mit denen du sowas selber nachprogrammieren könntest.

      Genau darum geht es. Ob Web Crawler solche Funktionen implementieren könnten, so dass E-Mail-Adressen dann nicht mehr ausreichend geschützt sein könnten. Der Autor schrieb auch, dass viele Web Crawler den Aufwand scheuen würden. Aber eben auch nur, weil sie auch noch anderweitig genug Adressen generieren können. Das könnte sich bei entsprechendem Bewusstsein vieler Entwickler, ihre Adressen wirkungsvoller zu verstecken. durchaus ändern. Mit entsprechend leistungsfähigen Bandbreiten und Rechnern würde man wohl auch diese aufwändigeren Wege bestreiten, um an die Adressen zu kommen. Das ist ein Wettrüsten.

      Ich habe manche dieser Tools schon runtergeladen und ausprobiert. Ich wusste nicht, ob ich lachen oder weinen sollte. Die konnten in der Tat nicht viel. Die Frage ist nur, ob in den weiten des Internets nicht doch die absolute Killer-Applikation lauert. Das Thema dürfte ansonsten eher unter den Teppich gekehrt werden. Aber ich denke, dass jeder, der Webseiten ins Netz stellt, keine Lust hat, mit Spam eingedeckt zu werden. Und Vorsicht ist halt besser als Nachsicht.

      1. hi $name,

        Genau darum geht es. Ob Web Crawler solche Funktionen implementieren könnten, so dass E-Mail-Adressen dann nicht mehr ausreichend geschützt sein könnten. Der Autor schrieb auch, dass viele Web Crawler den Aufwand scheuen würden. Aber eben auch nur, weil sie auch noch anderweitig genug Adressen generieren können. Das könnte sich bei entsprechendem Bewusstsein vieler Entwickler, ihre Adressen wirkungsvoller zu verstecken. durchaus ändern. Mit entsprechend leistungsfähigen Bandbreiten und Rechnern würde man wohl auch diese aufwändigeren Wege bestreiten, um an die Adressen zu kommen. Das ist ein Wettrüsten.

        yep, außerdem können sie die google suche benutzen und sich mit hilfe von google den inhalt ausgeben lassen.

        eine AdSense MFA seite hat das gemacht, den content von tausenden PDFs mithilfe der google suche ausgelesen und auf ihre seite gestellt.

        Ich habe manche dieser Tools schon runtergeladen und ausprobiert. Ich wusste nicht, ob ich lachen oder weinen sollte. Die konnten in der Tat nicht viel. Die Frage ist nur, ob in den weiten des Internets nicht doch die absolute Killer-Applikation lauert.

        wahrscheinlich. als damals dieser PDF spam durch die welt geisterte, hat eine firma ein programm entwickelt damit die spam filter die PDFs besser durchsuchen können und es u.a. google zur verfügung gestellt. google nutzt dieses nicht nur in ihrer suchmaschine sondern auch bei google mail.

        gruss
        shadow

        --
        Programmers don´t die, they GOSUB without RETURN.
        Quelle: unbekannt
  2. Hi,

    Ich lese momentan ein (älteres) Buch über Spam-Abwehr. Darin wird u.a. beschrieben, wie man E-Mail-Adressen auf Internetseiten vor Web Crawlern verbergen kann.

    Auch wenn Buecherverbrennung in Deutschland historisch begruendet nicht den besten Ruf geniesst -

    Der Autor geht hierbei auch auf die Möglichkeit ein, Mail-Adressen in PDF- und Flash-Dateien zu verstecken.

    • scheint sie mir hier doch absolut angebracht.

    Sind Mail-Adressen in PDF- und Flash-Dateien nun sicher oder nicht?

    Sie sind darin, sofern die Mailadresse auf einer Website zur Kontaktaufnahme veroeffentlicht werden soll, vor allem eins: Vollkommen fehl am Platze.

    MfG ChrisB

    1. Sie sind darin, sofern die Mailadresse auf einer Website zur Kontaktaufnahme veroeffentlicht werden soll, vor allem eins: Vollkommen fehl am Platze.»»

      Vielleicht hätte ich noch dazu schreiben sollen, dass ich nicht über den Sinn diskutieren wollte. Ich wollte Euch aber nicht zumuten, noch mehr lesen zu müssen. ;-)

      Das soll nun kein platt Bügeln von Kritik sein. Ich kann Deine Vorbehalte durchaus verstehen, ein Impressum derart zu verstecken. Da man damit nicht nur Web Crawler, sondern auch manchen User aussperren könnte. Ich finde diese Vorgehensweise daher durchaus fragwürdig. Schon alleine weil weder ein PDF-Reader noch ein Flash Player unbedingt zur Standard-Installation eines Systems gehören, sondern extra installiert werden müssen.

      Allerdings muss ich schon sagen, dass es was "Elegantes" ;-) hat, wenn man schon die ganze Seite nicht sehen kann, um dann auch nicht das "fehlende" Impressum monieren zu können. ;-)

      Ich wollte vor allem wissen, wie das nun wirklich mit der Technik ausschaut, bevor ich mich entscheide, wie ich das möchte kann und möchte. Bisher hat mir d i e - g e s p e r r t e - S c h r e i b w e i s e, wo man die Lücken per CSS verschwinden lassen kann noch am besten gefallen.