Robert Bienert: Was soll die Abfrage nach /SlurpConfirm/…?

Moin!

Seit gestern morgen nervt ein Useragent, der sich als „Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)“ ausgibt, meine Seite mit Anfragen nach nicht existierenden URLs, die mit /SlurpConfirm404/ beginnen bzw. einmal direkt /SlurpConfirm404.htm. Die Anfragen kommen von der IP 66.196.65.59, was traceroute im Yahoo-Netz lokalisiert. Ich habe per Yahoo-Suche (bietet sich in diesem Falle wohl an) eine Seite gefunden, auf der behauptet wird, dass Yahoo damit versucht herauszufinden, wie die Webseiten auf HTTP 404er reagieren. Aber vielleicht gibt es hier ja andere/weitere Erkenntnisse.
Meine Kontaktaufnahme mit Yahoo ist bislang auf Grund einer fehlenden Yahoo-ID, keinem geeigneten Kommentarformular sowie dem Blocken von Cookies fehlgeschlagen.

Falls die obige Aussage stimmen sollte, weshalb sollte es sinnvoll sein, sich die HTTP 404er Antworten von Servern anzuschauen?
Außerdem kann man doch mit Techniken wie mod_rewrite alle Request nach /SlurpConfirm404 auf eine tatsächlich existierende Seite umleiten und damit die „404er-Untersuchung“ sabotieren.

Ratlose Grüße,
Robert

  1. hi,

    Ich habe per Yahoo-Suche (bietet sich in diesem Falle wohl an) eine Seite gefunden, auf der behauptet wird, dass Yahoo damit versucht herauszufinden, wie die Webseiten auf HTTP 404er reagieren.

    Ja - kannst du auch direkt bei Yahoo nachlesen: http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html

    Falls die obige Aussage stimmen sollte, weshalb sollte es sinnvoll sein, sich die HTTP 404er Antworten von Servern anzuschauen?

    Weil es viel zu viele Deppen gibt, die die Adresse ihres ErrorDocuments mit http:// beginnend angeben - was dann einen Redirect auf das Fehlerdokument, und damit einen 200er Status auslöst.
    Da hast du als Bot kaum noch eine Chance, nicht mehr existente Ressourcen ausfindig zu machen - plötzlich liefert ja alles ein "gültiges" Ergebnis.
    Also hat man sich bei Yahoo gedacht, lassen wir den Bot doch mal ein Paar Ressourcen anfordern, die ziemlich sicher _nicht_ existieren dürften - wenn die alle einen 200er ergeben, können wir schon mal davon ausgehen, dass was faul ist - und unsere Schlüsse daraus ziehen.

    Neben den Deppen sind natürlich auch noch die Schurken ein Problem für die SuMas - Seiten, die auf so gut wie jede Anfrage ein Ergebnis zurückliefern - einfach Bestandteile aus dem URL nehmen, und dann daraus dynamisch Content á la "kaufen sie XYZ bei Shop ABC!" generieren. Auch bei sowas kann man seine Schlüsse ziehen, wenn jede noch so blöde Anfrage brav mit einem 200er beantwortet wird.

    Außerdem kann man doch mit Techniken wie mod_rewrite alle Request nach /SlurpConfirm404 auf eine tatsächlich existierende Seite umleiten und damit die „404er-Untersuchung“ sabotieren.

    Ja, könnte man.
    Dann muss sich Yahoo halt bald was neues überlegen - z.b. die angeforderten Adressen stärker variieren.

    gruß,
    wahsaga

    --
    /voodoo.css:
    #GeorgeWBush { position:absolute; bottom:-6ft; }
    1. Moin!

      Ich habe per Yahoo-Suche (bietet sich in diesem Falle wohl an) eine Seite gefunden, auf der behauptet wird, dass Yahoo damit versucht herauszufinden, wie die Webseiten auf HTTP 404er reagieren.

      Ja - kannst du auch direkt bei Yahoo nachlesen: http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html

      Hm, mein Browser zeigt mir diesen Link als schon einmal besucht an, aber ich kann mich nicht daran erinnern, dieses auschlussreiche Hilfethema bereits gelesen zu haben.

      Falls die obige Aussage stimmen sollte, weshalb sollte es sinnvoll sein, sich die HTTP 404er Antworten von Servern anzuschauen?

      Weil es viel zu viele Deppen gibt, die die Adresse ihres ErrorDocuments mit http:// beginnend angeben - was dann einen Redirect auf das Fehlerdokument, und damit einen 200er Status auslöst.

      Steht so etwas nicht in der Apache-Dokumentation? Wer lesen kann, ist klar im Vorteil ;-)

      Da hast du als Bot kaum noch eine Chance, nicht mehr existente Ressourcen ausfindig zu machen - plötzlich liefert ja alles ein "gültiges" Ergebnis.

      Leuchtet ein.

      Also hat man sich bei Yahoo gedacht, lassen wir den Bot doch mal ein Paar Ressourcen anfordern, die ziemlich sicher _nicht_ existieren dürften - wenn die alle einen 200er ergeben, können wir schon mal davon ausgehen, dass was faul ist - und unsere Schlüsse daraus ziehen.

      Naja, alleine die Bezeichnung Slurp – so heißt ja deren Bot – kann Webmaster durchaus auf kreative Gedanken bringen. Nachdem ich das Verzeichnis /SlurpConfirm404/ jetzt in meine robots.txt genommen habe, wollte ich schon fast eine Umleitung basteln, was dem Zweck der Abfrage des Bots genau gegengläufig wäre.

      Neben den Deppen sind natürlich auch noch die Schurken ein Problem für die SuMas - Seiten, die auf so gut wie jede Anfrage ein Ergebnis zurückliefern - einfach Bestandteile aus dem URL nehmen, und dann daraus dynamisch Content á la "kaufen sie XYZ bei Shop ABC!" generieren. Auch bei sowas kann man seine Schlüsse ziehen, wenn jede noch so blöde Anfrage brav mit einem 200er beantwortet wird.

      Genau aus diesem Grund würde ich an Yahoos Stelle eine bessere Methode wählen, z.B. die Request-URL komplett aus lauter Zufallsbuchstaben erzeugen.

      Viele Grüße,
      Robert

    2. Hi,

      Neben den Deppen sind natürlich auch noch die Schurken ein Problem für die SuMas - Seiten, die auf so gut wie jede Anfrage ein Ergebnis zurückliefern - einfach Bestandteile aus dem URL nehmen, und dann daraus dynamisch Content á la "kaufen sie XYZ bei Shop ABC!" generieren. Auch bei sowas kann man seine Schlüsse ziehen, wenn jede noch so blöde Anfrage brav mit einem 200er beantwortet wird.

      solche Schlüsse zieht Google anscheinend nicht, oder? Wenn ich mir die Ergebnisse mancher Suchen so ansehe ...

      Schönen Sonntag noch!
      O'Brien

      PS: Müsste es nicht SuMan heißen statt SuMas? Mir kräuseln sich schon immer die Nackenhaare, wenn ich "unsere AGBs" lese - und ja, in meinem Nacken sieht's aus wie bei Thomas Gottschalk aufm Kopp.

      --
      Frank und Buster: "Heya, wir sind hier um zu helfen!"
      1. Moin!

        solche Schlüsse zieht Google anscheinend nicht, oder? Wenn ich mir die Ergebnisse mancher Suchen so ansehe ...

        *g*  Die Argumentation klingt nachvollziehbar.

        PS: Müsste es nicht SuMan heißen statt SuMas? Mir kräuseln sich schon immer die Nackenhaare, wenn ich "unsere AGBs" lese

        Ja, kann ich nachfühlen. Allgemein neige ich dazu, Abkürzungen und Akronyme pauschal durch Anhängen eines 's' in den Plurar zu setzen (wie CDs, PKWs). Wenn die Abkürzung aber selbst schon eine Plural-Bedeutung hat wie AGB, "Allgemeine Geschäftsbedingung_en_", dann lass ich dieses Plural-s tunlichst weg.

        und ja, in meinem Nacken sieht's aus wie bei Thomas Gottschalk aufm Kopp.

        Oh, so strubbelig? Das muss ja merkwürdig aussehen!  ;-)

        Schönen Tag noch,
         Martin

        --
        Das Gehirn ist schon eine tolle Sache: Es fängt ganz von allein an zu arbeiten, wenn man morgens aufsteht, und hört erst damit auf, wenn man in der Schule ankommt.
          (alte Schülererkenntnis)
      2. Hi,

        solche Schlüsse zieht Google anscheinend nicht, oder? Wenn ich mir die Ergebnisse mancher Suchen so ansehe ...

        Innerhalb des Sitemaps-Programmes schon. Dort testet Google, ob Du Berechtigter bist, anhand eines generierten Dateinamens, eines dementsprechenden 404er und anschließend einem 200er.

        Gruß, Cybaer

        --
        Hinweis an Fragesteller: Fremde haben ihre Freizeit geopfert, um Dir zu helfen. Helfe Du auch im Archiv Suchenden: Beende deinen Thread mit einem "Hat geholfen" oder "Hat nicht geholfen"!