Hier gibt es ein Tools namens pdf2txt:
Hab noch keins davon ausprobiert, aber laut Beschreibung können sie den Text aus PDFs in ein ASCII-File schreiben. ASCII-Files kann man dann leicht parsen und Mail-Adressen herauslesen.
Danke! Das werde ich die Tage mal ausprobieren. Dann kann ich auch Rückmeldung geben.
Es gibt aber sicher auch Module/Funktionen für Perl oder PHP (und bestimmt auch für die meisten anderen Programmiersprachen) mit denen du sowas selber nachprogrammieren könntest.
Genau darum geht es. Ob Web Crawler solche Funktionen implementieren könnten, so dass E-Mail-Adressen dann nicht mehr ausreichend geschützt sein könnten. Der Autor schrieb auch, dass viele Web Crawler den Aufwand scheuen würden. Aber eben auch nur, weil sie auch noch anderweitig genug Adressen generieren können. Das könnte sich bei entsprechendem Bewusstsein vieler Entwickler, ihre Adressen wirkungsvoller zu verstecken. durchaus ändern. Mit entsprechend leistungsfähigen Bandbreiten und Rechnern würde man wohl auch diese aufwändigeren Wege bestreiten, um an die Adressen zu kommen. Das ist ein Wettrüsten.
Ich habe manche dieser Tools schon runtergeladen und ausprobiert. Ich wusste nicht, ob ich lachen oder weinen sollte. Die konnten in der Tat nicht viel. Die Frage ist nur, ob in den weiten des Internets nicht doch die absolute Killer-Applikation lauert. Das Thema dürfte ansonsten eher unter den Teppich gekehrt werden. Aber ich denke, dass jeder, der Webseiten ins Netz stellt, keine Lust hat, mit Spam eingedeckt zu werden. Und Vorsicht ist halt besser als Nachsicht.