Armin G.: Wirrer Buchstabensalat als Browserkennung?

Tach auch,

Dass man Browserkennungen faelschen kann und sich nicht drauf verlassen kann usw usf weiss ich (meine eigene ist ja auch etwas seltsam ;-)).

Trotzdem wundere ich mich ueber etwas was mir gerade mal wieder aufgefallen ist:

Seit ein paar Wochen habe ich in meinen Logfiles andauernd wirren Buchstabensalat in den Browserkennungen meiner Logfiles, so a la "kktujskrosurjsllerymvt". Diese scheinen sich auch konstant zu aendern, fuer jede Kennung gibt es nur einen Eintrag. Aehnliches sehe ich auch bei den Analysen vom Selfraum, z.B. http://webalizer.teamone.de/selfforum/agent_200402.htm (nach unten scrollen).

Ist das auch schon anderen aufgefallen? Und vor allem: Hat jemand eine Ahnung was das soll? Ist das irgendein Proxy, eine Art "Webwasher" oder etwas in der Art? Irgendwie faellt mir nichts ein wie ich damit in Google nach was suchen koennte.

Gruss,
Armin

--
Location: Swindon/Wiltshire/England/UK/Europe/Northern Hemisphere/Planet Earth/Solar System/Milky Way Galaxy/Universe
http://www.ministryofpropaganda.co.uk/
  1. Tach auch,

    Moin!

    Dass man Browserkennungen faelschen kann und sich nicht drauf verlassen kann usw usf weiss ich (meine eigene ist ja auch etwas seltsam ;-)).

    Soso, welche denn, wenn man fragen darf?

    Ist das auch schon anderen aufgefallen? Und vor allem: Hat jemand eine Ahnung was das soll? Ist das irgendein Proxy, eine Art "Webwasher" oder etwas in der Art? Irgendwie faellt mir nichts ein wie ich damit in Google nach was suchen koennte.

    Naja, vielleicht sind es ja auch Informatik-Schüler/-Studenten, die ihre Hausaufgaben testen (selbst-geschriebene Socket-Programme, TCP-Clients, ...) ;-)

    Gruss, Armin

    Tschüss, Robert

  2. Moin,

    Ist das auch schon anderen aufgefallen? Und vor allem: Hat jemand eine Ahnung was das soll?

    Ich tippe auf so nutzlose Programme a la Norton Internet Security. Die fallen immer wieder durch beeindruckend sinnlose Aktionen auf und das klingt genau so. Das erwähnte NoISe ersetzt zum Beispiel Accept-Encoding: ...-Header durch ~~~~~~~~~: ~~~~..., da ist es doch nur logisch dass sie den User-Agent ähnlich vergewaltigen.

    --
    Henryk Plötz
    Grüße aus Berlin
    ~~~~~~~~ Un-CDs, nein danke! http://www.heise.de/ct/cd-register/ ~~~~~~~~
    ~~ Help Microsoft fight software piracy: Give Linux to a friend today! ~~
    1. Moin!

      Ist das auch schon anderen aufgefallen? Und vor allem: Hat jemand eine Ahnung was das soll?

      Ich tippe auf so nutzlose Programme a la Norton Internet Security. Die fallen immer wieder durch beeindruckend sinnlose Aktionen auf und das klingt genau so. Das erwähnte NoISe ersetzt zum Beispiel Accept-Encoding: ...-Header durch ~~~~~~~~~: ~~~~..., da ist es doch nur logisch dass sie den User-Agent ähnlich vergewaltigen.

      Korrekt. Es scheint noch niemandem aufgefallen zu sein, dass man einerseits zwar seine Browserversion nicht preisgibt, andererseits durch einen einzigartigen User-Agent-String eine wunderbare, nachverfolgbare Spur im Internet hinterläßt. Am besten benutzt man den SHA1-Hash aus CPU-ID, allen MAC-Adressen der installierten Netzwerkkarten und dem Installationszeitpunkt des Browsers für maximale Eindeutigkeit. So kann man dann prima über alle Server dieser Welt eindeutig und nachträglich identifiziert werden.

      - Sven Rautenberg

      --
      "Habe den Mut, dich deines eigenen Verstandes zu bedienen!" (Immanuel Kant)
      1. Hallo,

        Es scheint noch niemandem aufgefallen zu sein, dass man einerseits zwar seine Browserversion nicht preisgibt, andererseits durch einen einzigartigen User-Agent-String eine wunderbare, nachverfolgbare Spur im Internet hinterläßt.

        Für mich sieht das eher so aus, als würde der Header von Request zu Request geändert und ein User-Agent-String nur einmal genutzt (siehe Webalizer). Was ist daran nachverfolgbar?

        Mathias

        1. Tach auch,

          Für mich sieht das eher so aus, als würde der Header von Request zu Request geändert und ein User-Agent-String nur einmal genutzt (siehe Webalizer). Was ist daran nachverfolgbar?

          Genau das habe ich auch gerade gedacht. Soweit ich das bis jetzt gesehen habe jede Kombination nur ein einziges Mal benutzt und fuer jeden Request eine andere benutzt. Allerdings von der gleichen IP-Adresse, soweit ich sehen kann.

          Gruss,
          Armin

          --
          Location: Swindon/Wiltshire/England/UK/Europe/Northern Hemisphere/Planet Earth/Solar System/Milky Way Galaxy/Universe
          http://www.ministryofpropaganda.co.uk/
  3. Ich tippe auf etwas ganz anderes:

    Es gibt ja den Trick, dass man Spam-Adressen-Crawler (nicht nur die, aber bei denen macht es Sinn) durch eine entsprechende .htaccess aussperren kann. Dafür werden in der .htaccess die Kennungen der bekanntesten Crawler in eine Art Blacklist eingetragen. Wenn man mit einem so gesperrten Browser die Seite aufruft, kriegt man einen Fehler 500.

    Das funktioniert nur, solange die Crawler immer die gleiche Kennung haben. Merkt ihr was? Mit zufällig erzeugten Kennungen wird der Trick ausgehebelt.

    Logischerweise müßte man jetzt die .htaccess so umschreiben, dass nur noch bestimmte Browser rein dürfen. Alle anderen werden ausgesperrt...

    Johannes

    1. Hallo,

      Logischerweise müßte man jetzt die .htaccess so umschreiben, dass nur noch bestimmte Browser rein dürfen. Alle anderen werden ausgesperrt...

      ...was mehr als bloß schlecht ist. Nur, weil man einen Browser nicht kennt, heißt es nicht, dass der nicht auf die Seite darf, oder? Außerdem: was hindert einen Crawler daran, eine UA-Kennung z.B. vom Internet Explorer zu senden?

      Es gibt im Endeffekt keine Möglichkeit, Crawler auszusperren, außer Emailadressen nur noch als Bilder anzubieten (naja, und mit OCR könnte selbst da noch etwas zu machen sein) und nur Kontaktformulare zu verwenden. (was IMHO auch alles andere als schön ist)

      Viele Grüße,
      Christian

  4. Hallo Armin,

    Seit ein paar Wochen habe ich in meinen Logfiles andauernd wirren Buchstabensalat in den Browserkennungen meiner Logfiles

    Die Dinger habe ich auch seit einiger Zeit in meinen Logfiles, Tendenz steigend.

    Diese scheinen sich auch konstant zu aendern, fuer jede Kennung gibt es nur einen Eintrag.

    Kann ich ebenfalls bestätigen. Selbst Zugriffe mit identischer Zeit und IP-Adresse haben unterschiedliche Kennungen.

    Und vor allem: Hat jemand eine Ahnung was das soll?

    Zumindest scheinen es irgendwelche Bots zu sein, für welchen Zweck auch immer. Es werden in der Regel nur HTML-Seiten angefordert, aber keine Bilder, Stylesheets oder JavaScripts.
    "Einfallstor" war bei mir übrigens mein Eintrag bei dmoz.org (bei mir ist nicht die Startseite gelistet, sondern ein Unterverzeichnis, deswegen konnte ich das gut zurückverfolgen).

    Irgendwie faellt mir nichts ein wie ich damit in Google nach was suchen koennte.

    Kunststück... ;-) Gibt es irgendein schönes englisches Wort für "Buchstabensalat"? Ich habe es mal mit scrambled useragent oder arbitrary useragent versucht, dabei kam aber auch nichts brauchbares raus...

    Viele Grüße
    Carsten

    1. Tach auch,

      Kann ich ebenfalls bestätigen. Selbst Zugriffe mit identischer Zeit und IP-Adresse haben unterschiedliche Kennungen.

      Die habe ich noch nicht gefunden, aber das kann ja noch werden ;-)

      Zumindest scheinen es irgendwelche Bots zu sein, für welchen Zweck auch immer. Es werden in der Regel nur HTML-Seiten angefordert, aber keine Bilder, Stylesheets oder JavaScripts.

      Das war ein erster Eindruck den ich auch hatte, das muss ich mir allerdings noch mal genauer ansehen.

      "Einfallstor" war bei mir übrigens mein Eintrag bei dmoz.org (bei mir ist nicht die Startseite gelistet, sondern ein Unterverzeichnis, deswegen konnte ich das gut zurückverfolgen).

      Soweit bin ich leider noch nicht, ganz schoen nervig so ein Logfile durchzugehen und praktisch von Hand nach den Dingern zu suchen...

      Kunststück... ;-) Gibt es irgendein schönes englisches Wort für "Buchstabensalat"? Ich habe es mal mit scrambled useragent oder arbitrary useragent versucht, dabei kam aber auch nichts brauchbares raus...

      Nicht so richtig. Ich habe mit "weird user agent string", "random user agent string" und aehnlichem gesucht. Bis auf einen Thread bei Webmasterworld (die aber auch keine Erklaerung hatten) ist auch nichts brauchbares rausgekommen.

      Mal sehen, vielleicht blogge ich das heute abend mal, mal sehen ob es dann von anderen auch bemerkt wird...

      Gruss,
      Armin

      --
      Location: Swindon/Wiltshire/England/UK/Europe/Northern Hemisphere/Planet Earth/Solar System/Milky Way Galaxy/Universe
      http://www.ministryofpropaganda.co.uk/
  5. Hallo Armin,

    ich kenn die Dinger auch, habe auch keine Erklärung dafür, kann aber ein bisschen was zum Verhalten beisteuern:

    1. Bei jedem Request wechselnde UA-Strings beobachte ich auch.
    2. Zudem aber auch wechselnde IPs, die - sofern identifizierbar - von Einwahlprovidern stammen, z.B. T-Online oder Bell South.
    3. Die Einwahlprovider sind weltweit verteilt.
    4. Ich kann nur Aufrufe gültiger und existierender URIs feststellen, allerdings solche versteckten, dass sie in keiner Suchmaschine/in keinem Verzeichnis gelistet sind. Das Muster sieht so aus, als würde die Site - in gaaaanz kleinen Häppchen - gecrawlt.

    Also: Crawling von versch. Einwahlprovidern aus, da vermute ich, dass es irgendwo dahinter eine Datenbank gibt, die die Aufrufe koordiniert. Was genau das sein könnte, bleibt der Fantasie überlassen: Ein Wurm/Trojaner, der fürs Mailadressen-Harvesting benutzt wird? Adware, die "nebenbei" Adressen-Harvesting macht? Ein verteiltes Projekt ähnlich Seti@home? (Wobei: wozu dann der kryptische UA-String?)

    Grüße,

    Utz

    --
    Mitglied im Ring Deutscher Mäkler
    1. hi,

      Ein verteiltes Projekt ähnlich Seti@home? (Wobei: wozu dann der kryptische UA-String?)

      Bielefeld@home - SIE wollen nicht gefunden werden!

      gruss,
      wahsaga