Karl Heinz: URL-Parameter - Majestic MJ12bot - Link Research Tools

Hallo,

ich habe eine Frage zu URL-Parametern.

In Google Analytics-Accounts können die Besucher einer Webseite, sortiert nach den URL-Parametern (utm_source und utm_medium), gelistet werden.

Im Google Analytics Account eines Kunden (www.noni-mode.de) ist mir eine Besucherquelle aufgefallen, deren URL-Parameter ich nicht nachvollziehen kann.

Irgend jemand, der die Webseite meines Kunden aufruft, hat folgende URL-Parameter verwendet:

  • utm_source = noni Webseite
  • utm_medium = link

Was ich nicht nachvollziehen kann ist der Wert für utm_source. Wenn eine Webseite auf meinen Kunden verlinkt, dann wäre doch der Name der verlinkenden Webseite als utm_source sinnig und nicht die Webseite wohin gelinkt wird. Bei utm_source sollte man die Quelle angeben und nicht das Ziel wohin der Link geht (wie oben passiert).

Weil uns unklar war, was genau hier passiert ist, haben wir die Log-Datei des Web-Servers nach der seltsamen Quelle wie folgt durchsucht:

grep utm_source=noni -rin noni-mode.de-2018-01-*

Hier das Ergebnis:

noni-mode.de-2018-01-26:14720:54.236.1.15 - - [26/Jan/2018:08:59:38 +0100] "GET /kollektion/brautkleider-2018-jetzt-entdecken/brautkleid-kurz-alternativ-mit-spitze?utm_source=noni HTTP/1.1" 200 17203 "-" "Mozilla/5.0 (compatible; Pinterestbot/1.0; +http://www.pinterest.com/bot.html)"

noni-mode.de-2018-01-26:61949:167.114.1.124 - - [26/Jan/2018:15:53:34 +0100] "GET /kollektion/noni-brautkleider-2018/braut-pullover-mit-farbigem-tuellrock?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 301 5223 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-26:61959:167.114.1.124 - - [26/Jan/2018:15:54:03 +0100] "GET /kollektion/brautkleider-2018-jetzt-entdecken/braut-pullover-mit-farbigem-tuellrock?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 200 15660 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-26:61965:167.114.1.124 - - [26/Jan/2018:15:54:32 +0100] "GET /kollektion/noni-brautkleider-2018/brautkleid-kurz-alternativ-mit-spitze?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 301 5223 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-26:62059:167.114.1.124 - - [26/Jan/2018:15:54:51 +0100] "GET /kollektion/brautkleider-2018-jetzt-entdecken/brautkleid-kurz-alternativ-mit-spitze?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 200 17354 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-26:62063:167.114.1.124 - - [26/Jan/2018:15:55:13 +0100] "GET /kollektion/noni-brautkleider-2018/brautkleid-mit-tuellrock-und-braut-bluse?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 301 5226 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-26:62065:167.114.1.124 - - [26/Jan/2018:15:55:40 +0100] "GET /kollektion/brautkleider-2018-jetzt-entdecken/brautkleid-mit-tuellrock-und-braut-bluse?utm_source=noni%20Website&utm_medium=link&utm_campaign=Kleid HTTP/1.1" 200 16905 "-" "Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)"

noni-mode.de-2018-01-29:63719:89.1.122.247 - - [29/Jan/2018:14:42:49 +0100] "GET / HTTP/2.0" 200 21142 "https://shop.noni-mode.de/?utm_source=noni%20website&utm_medium=link&utm_campaign=menu" "Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0"

Was auffällt ist, dass fast immer der MJ12bot (der Crawler von Majestic) für den seltsamen utm_source Parameter verantwortlich ist.

Bei Majestic handelt es sich, ähnlich bei bei den "Link Research Tools", um ein System mit dessen Hilfe die Linksstruktur von Webseiten analysiert und bewertet wird.

Demnach ist es logisch, dass Mejestic mit seinem MJ12bot-Crawler ständig die Verlinkungen zu Webseiten aufruft.

Was ich allerdings nicht verstehen kann ist, warum der MJ12bot diesen unlogischen utm_source Parameter nutzt.

Meines Erachtens ist:

utm_source=noni%20website

falsch, während

utm_source=majestic-mj12bot

richtig wäre.

Soweit zum meinem Verständnis. Ich befürchte ich habe da einen Denkfehler drin, vielleicht arbeitet der MJ12bot ganz anders und utm_source ist korrekt gesetzt bzw. vielleicht interpretiere ich die Log-Datei falsch und die Anfrage kommt gar nicht vom MJ12bot?

Weiß hier jemand Rat bzw. kann mir jemand sagen was genau hier seitens des MJ12bots passiert?

Ist der MJ12bot überhaupt für die Anfragen mit dem seltsamen utm_source Parameter verantwortlich?

Viele Grüße

--
"Die Deutsche Rechtschreibung ist Freeware, sprich, du kannst sie kostenlos nutzen. Allerdings ist sie nicht Open Source, d.h. du darfst sie nicht verändern oder in veränderter Form veröffentlichen."

akzeptierte Antworten

  1. Vermutlich hat jemand Deine Seiten mit diesen Parametern verlinkt. Und Guck mal in die G-Webmastertools. MfG

    1. @@pl,

      Und Guck mal in die G-Webmastertools.

      In der Search-Console werden zwar die "Links zu Ihrer Webseite" gelistet leider aber nicht die verwendeten URL-Parameter, genau die bräuchte ich allerdings.

  2. Hallo @Karl Heinz,

    Irgend jemand, der die Webseite meines Kunden aufruft, hat folgende URL-Parameter verwendet:

    • utm_source = noni Webseite
    • utm_medium = link

    irgendjemand hat den Link dann wohl so zusammengebaut – entweder der Besucher oder jemand, der auf die Webseite linkt. Oder wird der Link eventuell gar bei deinem Kunden so verwendet? Gibt es keine Refer(r)er zu den URI?

    Was auffällt ist, dass fast immer der MJ12bot (der Crawler von Majestic) für den seltsamen utm_source Parameter verantwortlich ist.

    1. fast
    2. Der Bot ruft den Link bloß auf.

    Was ich allerdings nicht verstehen kann ist, warum der MJ12bot diesen unlogischen utm_source Parameter nutzt.

    Die Frage ist, woher hat der Bot den Link?

    Meines Erachtens ist:

    utm_source=noni%20website

    falsch, während

    utm_source=majestic-mj12bot

    richtig wäre.

    Warum sollte ein Bot die Spezialitäten von Google Analytics beachten?

    Viele Grüße
    Robert

    1. @@Robert,

      Irgend jemand, der die Webseite meines Kunden aufruft, hat folgende URL-Parameter verwendet:

      • utm_source = noni Webseite
      • utm_medium = link

      irgendjemand hat den Link dann wohl so zusammengebaut – entweder der Besucher oder jemand, der auf die Webseite linkt.

      Diesen jemand (der der auf die Webseite linkt) möchte ich gerne identifzieren. Dazu müsste ich die Quelle (den URI) ausfindig machen, auf welchem die oben genannten URL-Parameter an den URI hinten dran gepackt werden. Die Frage ist ob dies möglich ist?

      Mir liegen nur die URI-Parameter vor, allerdings nicht die URI die diese URI-Parameter verwendet. Gibt es eine Möglichkeit irgendwie von den URI-Parametern auf die URI zu kommen die diese URI-Parameter verwendet?

      1. Hallo @Karl Heinz,

        Diesen jemand (der der auf die Webseite linkt) möchte ich gerne identifzieren. Dazu müsste ich die Quelle (den URI) ausfindig machen, auf welchem die oben genannten URL-Parameter an den URI hinten dran gepackt werden. Die Frage ist ob dies möglich ist?

        Die Antwort auf deine Frage liefert meine vorherige Frage:

        Gibt es keine Refer(r)er zu den URI?

        Viele Grüße
        Robert

        1. @@Robert,

          Die Antwort auf deine Frage liefert meine vorherige Frage:

          Gibt es keine Refer(r)er zu den URI?

          Was ist denn der Unterschied zwischen URI und Refer(r)er?

          Falls es das gleiche ist: Leider nein, theoretisch kann Google Analytics die Refer(r)er/URIs zwar anzeigen, praktisch funktioniert das bei den betreffenden URL−Parametern leider nicht. Gibt es vielleicht irgendwie (ohne Analytics) die Möglichkeit an den Refer(r)er/URI zu kommen?

          1. Hallo,

            Was ist denn der Unterschied zwischen URI und Refer(r)er?

            Referrer, URI

            Gruß
            Kalk

            1. @@Tabellenkalk,

              Was ist denn der Unterschied zwischen URI und Refer(r)er?

              Referrer, URI

              Diese Definition habe ich auch vorher schon gekannt:

              URI: Der Unified Resource Identifier, URI, auf deutsch „einheitlicher Bezeichner für Ressourcen“, ist die Adresse einer Ressource, beispielsweise einer Webseite oder eine E-Mail-Adresse.

              Referrer: Der Referrer (engl. to refer, verweisen, weiterleiten, übergeben) bezeichnet im Webumfeld die diejenige Internetseite, von der aus der Benutzer zur aktuellen Ressource gekommen ist.

              Wenn von Webseite A auf Webseite B verlinkt wird, dann ist Webseite A der Referrer der zu Webseite B führt. Gleichzeitig handelt es sich sowohl bei Webseite A und bei Webseite B um URIs. Der Unterschied ist mir schon klar, allerdings macht es bei meiner Frage keinen Sinn zwischen den Begriffen URI und Refer(r)er zu unterscheiden.

              Ich hatte ja folgendes gefragt:

              Diesen jemand (der der auf die Webseite linkt) möchte ich gerne identifzieren. Dazu müsste ich die Quelle (den URI) ausfindig machen, auf welchem die oben genannten URL-Parameter an den URI hinten dran gepackt werden. Die Frage ist ob dies möglich ist?

              Daraufhin hatte Robert folgendes geantwortet:

              Die Antwort auf deine Frage liefert meine vorherige Frage:

              Gibt es keine Refer(r)er zu den URI?

              In meiner Frage schreibe ich, dass ich die Quelle (den URI) ausfindig machen möchte, die Quelle (mit dem Link) ist in diesem Beispiel der Refer(r)er. Das bedeutet in meinem Beispiel sind die Begriffe URI und Refer(r)er synonym zu betrachten (Quell−URI = Refer(r)er). Wenn man die Begriffe synonym betrachtet und ich in meiner Frage darauf hinweise, dass ich die Quell−URIs ausfindig machen möchte, liegt mir logischerweiße auch kein Refer(r)er vor. Demnach kann ich nicht nachvollziehen was @Robert B. mir mit seiner Antwort

              Gibt es keine Refer(r)er zu den URI?

              sagen will. Mir liegt weder Refer(r)er noch Quell−URI vor bzw. ich unterscheide bezogen auf mein Beispiel nicht zwischen Refer(r)er und Quell−URI. Kannst du mir genauer erklären worauf du hinaus willst?

              Ob und wie ich den Quell−URI (den Refer(r)er) identifzieren kann weiß ich leider noch immer nicht.

              1. Hallo

                Ich hatte ja folgendes gefragt:

                Diesen jemand (der der auf die Webseite linkt) möchte ich gerne identifzieren. Dazu müsste ich die Quelle (den URI) ausfindig machen, auf welchem die oben genannten URL-Parameter an den URI hinten dran gepackt werden. Die Frage ist ob dies möglich ist?

                Daraufhin hatte Robert folgendes geantwortet:

                Die Antwort auf deine Frage liefert meine vorherige Frage:

                Gibt es keine Refer(r)er zu den URI?

                In meiner Frage schreibe ich, dass ich die Quelle (den URI) ausfindig machen möchte, die Quelle (mit dem Link) ist in diesem Beispiel der Refer(r)er. Das bedeutet in meinem Beispiel sind die Begriffe URI und Refer(r)er synonym zu betrachten (Quell−URI = Refer(r)er). Wenn man die Begriffe synonym betrachtet und ich in meiner Frage darauf hinweise, dass ich die Quell−URIs ausfindig machen möchte, liegt mir logischerweiße auch kein Refer(r)er vor. Demnach kann ich nicht nachvollziehen was @Robert B. mir mit seiner Antwort

                Gibt es keine Refer(r)er zu den URI?

                sagen will. Mir liegt weder Refer(r)er noch Quell−URI vor bzw. ich unterscheide bezogen auf mein Beispiel nicht zwischen Refer(r)er und Quell−URI. Kannst du mir genauer erklären worauf du hinaus willst?

                Ob und wie ich den Quell−URI (den Refer(r)er) identifzieren kann weiß ich leider noch immer nicht.

                Was ist an Roberts Frage denn so schwer zu verstehen? Gibt es eine Angabe für den Referrer? Wenn es sie gibt, dann nutze sie. Wenn es sie jedoch nicht gibt, dann gibt es sie einfach nicht, egal, in welchen Ecken du danach suchst. Du kannst sie nicht aus dem Nichts herbeizaubern.

                Im Übrigen gibt es mittlerweile den Meta-Referrer-Header, mit dem man als Seitenbetreiber den Versand des Referrers steuern und dabei auch einschränken oder ganz unterbinden kann. Grund für die Einführung ist, dass die Browser bei einem Wechsel von HTTPS auf ein per HTTP angegebenes Ziel keinen Referrer senden, um den Gewinn an Sicherheit durch die Verschlüsselung der Verbindung nicht (teilweise) durch die Preisgabe der Quellen (gerade der URL-Parameter) zu konterkarieren.

                Mit Meta-Referrer kann man nun steuern, ob ein Referrer gesendet wird oder nicht, ob, wenn er gesendet wird, die URL-Parameter mitgesendet werden oder nur der Domainname oder ob die Parameter bei einem Ziel innerhalb der Domain gesendet werden, aber nicht an Linkziele auf Fremddomains.

                In diesem Blogeintrag wird das meiner Meinung nach verständlich erklärt. Für dich dürfte besonders der Abschnitt „Problem number two“ interessant sein. Schlussendlich muss aber die Seite, von der auf das fragliche Angebot verlinkt wird, Meta-Referrer nutzen. Und ob das mit Meta-Referrer gelöste Problem tatsächlich die Quelle deines Problems ist, steht auf einem anderen Blatt. Sie kann es sein, muss es aber nicht.

                Tschö, Auge

                --
                Wenn man ausreichende Vorsichtsmaßnahmen trifft, muss man keine Vorsichtsmaßnahmen mehr treffen.
                Toller Dampf voraus von Terry Pratchett
                1. @@Auge,

                  endlich habe ich es begriffen. Vielen Dank für Deine geniale Antwort.