Christoph Schnauß: Identifikation hartnäckiger Spam-bots - was nutzt es?

hallo Forum,

das Thema, daß es immer wieder Spam-Einträge aufgrund (meistens) fehlerhaft geschriebener Scripts gibt, hat in jüngerer Zeit häufiger Threads in diesem Forum bestimmt - ich habe selber zwei dazu beigesteuert. Derzeit passiert es bei mir nicht mehr, aber eine Sache habe ich dann doch noch. Ich finde in meinen logs jetzt beispielsweise so etwas:
218.128.240.113 - - [17/Jun/2006:09:06:21 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
203.115.81.3 - - [17/Jun/2006:09:06:29 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
58.140.242.38 - - [17/Jun/2006:09:06:37 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
70.174.14.50 - - [17/Jun/2006:16:41:18 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
220.72.196.69 - - [17/Jun/2006:16:41:27 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
220.122.166.185 - - [17/Jun/2006:16:41:34 +0200] "GET /cgi-bin/gastb.pl?add HTTP/1.0" 404
Was auffällt, sind zweierlei Dinge:
1. Ein Script mit dem Namen gastb.pl, das auch den Parameter "add" verarbeitet hätte, gab es bis vor etwa vier Monaten. Das Script gibt es immer noch, aber unter anderem Namen, und die Parameter, auf die es reagieren kann, lauten inzwischen anders. Es passiert ja auch nichts, der "Besucher" bekommt einen 404er zurück. Ist dieser ehemals ja vorhandene Scriptname da in irgendeinem "bot-Archiv" gelandet?
2. Wie deutlich zu sehen ist, wechseln im Abstand weniger Sekunden die IP-Adressen. Da würde ich mittlerweile gerne verstehen können, wie die Bösewichte das anstellen.

Seit etwa zehn Tagen gibt es einen weiteren bot, der sehr lange Listen für Pharmaziewerbung einzutragen versucht. Das Teil wechselt zwar nicht die IP, ist aber hartnäckig und kommt alle paar Stunden mal vorbei:
81.95.146.162 - - [16/Jun/2006:18:18:59 +0200] "GET /kontakt/gastb.php?add HTTP/1.0" 403
81.95.146.162 - - [16/Jun/2006:19:34:03 +0200] "GET /kontakt/gastb.php?add HTTP/1.0" 403
81.95.146.162 - - [16/Jun/2006:20:50:01 +0200] "GET /kontakt/gastb.php?add HTTP/1.0" 403
81.95.146.162 - - [16/Jun/2006:23:09:01 +0200] "GET /kontakt/gastb.php?add HTTP/1.0" 403
81.95.146.162 - - [17/Jun/2006:05:25:49 +0200] "GET /kontakt/gastb.php?add HTTP/1.0" 403
Der kriegt, weil er an einer anderen Stelle geblockt wird, einen 403er zurück und wird seine dämlichen Listen nicht los - jedenfalls nicht (mehr) bei mir.
Die IP gehört einem russischen Anbieter.

Solange meine "Abwehr" nicht stand, kam übrigens unmittelbar nach einem solchen "GET" als Übermittlungsmethode von derselben IP noch ein "POST" dazu. Da war ich dann zugemüllt worden.

Meine Frage ist nun, wie sinnvoll es ist, sich solche Dinge überhaupt aus den logs herauszufischen. Bei der IP 81.95.146.162 steht als lustige Zutat auch immer noch dabei:
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; MRA 4.3 (build 01218))"
Vermutlich weiß der Besitzer dieser IP gar nicht, daß er einen Bösewicht beherbergt.

Wenn mein Script jetzt so weit richtig arbeitet, daß es diese bots zurückweist und ich keinen Müll mehr eingetragen bekomme (wer tatsächlich was eintragen möchte, kann das immer noch tun), kann ich mich ja vorerst zurücklehnen - bis es irgendein neuerer "bot" dann eben doch wieder schafft. Ich verstehe bloß immer noch nicht (sorry, aber Alterspräsidenten haben halt manchmal keine so rasche Auffassungsgabe mehr), was dieser ganze "Gästebuchspam" eigentlich brigen soll. Geht es wirklich nur darum, die beworbenen Adressen in den Rankings der Suchmaschinen nach oben zu pushen?

Grüße aus Berlin

Christoph S.

--
Visitenkarte
ss:| zu:) ls:& fo:) va:) sh:| rl:|
  1. Hi,

    Geht es wirklich nur darum, die beworbenen Adressen in den Rankings der Suchmaschinen nach oben zu pushen?

    Nicht nur. Es geht auch darum, ebenso wie bei SPAM-Mails, dass vielleicht mal jemand auf den Link klickt.

    1. Hallo Manuel,

      Geht es wirklich nur darum, die beworbenen Adressen in den Rankings der Suchmaschinen nach oben zu pushen?

      Nicht nur. Es geht auch darum, ebenso wie bei SPAM-Mails, dass vielleicht mal jemand auf den Link klickt.

      Und auch darum geht es den Betreibern der SPAM-Bots wohl nicht.
      Wie man auf einer von mir gehosteten Seite sehen kann, werden einfach irgendwelche Platzhalter eingetragen, wenn keine URLs eingetragen werden können:
      http://hola2004.de/gaestebuch/

      Ich hatte damals nämlich extra alle Einträge mit http:// gesperrt, seitdem kommen solche geistreichen Einträge. Vermutlich dienen sie nur dafür, den Seitenbetreiber zu nerven.

      Grüße

      Marc Reichelt || http://www.marcreichelt.de/

      --
      Linux is like a wigwam - no windows, no gates and an Apache inside!
      Selfcode: ie:{ fl:| br:> va:} ls:< fo:} rl:( n4:( ss:) de:> js:| ch:? sh:| mo:) zu:)
  2. Hallo,

    Meine Frage ist nun, wie sinnvoll es ist, sich solche Dinge überhaupt aus den logs herauszufischen.

    Gar nicht, würde ich sagen. Jedenfalls nicht um sich darüber aufzuregen. Eine Analyse neuer "Angriffe" ist natürlich Pflicht.

    Geht es wirklich nur darum, die beworbenen Adressen in den Rankings der Suchmaschinen nach oben zu pushen?

    Ja. Logische Konsequenz ist dann, (wie schon erwähnt) eine höhere Besucheranzahl.

    Grüße, Ulli

  3. Hallo Christoph!

    1. Wie deutlich zu sehen ist, wechseln im Abstand weniger Sekunden die IP-Adressen. Da würde ich mittlerweile gerne verstehen können, wie die Bösewichte das anstellen.

    Ich wüsste es auch gerne. Solche Einträge in den Logs finde ich auch immer wieder. Vor allem einige Beiträge (immer die gleichen) des auf Read-Only gestellten Atomic Eggs-Forum werden immer wieder Ziel fehlschlagender Angriffe (ich hab lediglich das action-Attribut leer gelassen, für die "menschlichen" User die Buttons auf disabled gesetzt, nach dem ich keine Lust hatte, auf den fast 400 Seiten die Formulare zu löschen und ein damaliger Versuch mittels Perl-Script beim alten Community Board die <form ... /form> zu entfernen, mit einer gnadenlosen Ersetzung des gesamten Inhalts aller Dateien führte und mir einen Riesenhaufen 0-Byte-Dateien hinterließ *g*).

    Dadurch kommt es in meinem Logs zu einem POST, dieser  wird dann natürlich mit einem 404 quittiert.

    Viele Grüße aus Frankfurt/Main,
    Patrick

    --

    _ - jenseits vom delirium - _