Moin!
Ich habe per Yahoo-Suche (bietet sich in diesem Falle wohl an) eine Seite gefunden, auf der behauptet wird, dass Yahoo damit versucht herauszufinden, wie die Webseiten auf HTTP 404er reagieren.
Ja - kannst du auch direkt bei Yahoo nachlesen: http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html
Hm, mein Browser zeigt mir diesen Link als schon einmal besucht an, aber ich kann mich nicht daran erinnern, dieses auschlussreiche Hilfethema bereits gelesen zu haben.
Falls die obige Aussage stimmen sollte, weshalb sollte es sinnvoll sein, sich die HTTP 404er Antworten von Servern anzuschauen?
Weil es viel zu viele Deppen gibt, die die Adresse ihres ErrorDocuments mit http:// beginnend angeben - was dann einen Redirect auf das Fehlerdokument, und damit einen 200er Status auslöst.
Steht so etwas nicht in der Apache-Dokumentation? Wer lesen kann, ist klar im Vorteil ;-)
Da hast du als Bot kaum noch eine Chance, nicht mehr existente Ressourcen ausfindig zu machen - plötzlich liefert ja alles ein "gültiges" Ergebnis.
Leuchtet ein.
Also hat man sich bei Yahoo gedacht, lassen wir den Bot doch mal ein Paar Ressourcen anfordern, die ziemlich sicher _nicht_ existieren dürften - wenn die alle einen 200er ergeben, können wir schon mal davon ausgehen, dass was faul ist - und unsere Schlüsse daraus ziehen.
Naja, alleine die Bezeichnung Slurp – so heißt ja deren Bot – kann Webmaster durchaus auf kreative Gedanken bringen. Nachdem ich das Verzeichnis /SlurpConfirm404/ jetzt in meine robots.txt genommen habe, wollte ich schon fast eine Umleitung basteln, was dem Zweck der Abfrage des Bots genau gegengläufig wäre.
Neben den Deppen sind natürlich auch noch die Schurken ein Problem für die SuMas - Seiten, die auf so gut wie jede Anfrage ein Ergebnis zurückliefern - einfach Bestandteile aus dem URL nehmen, und dann daraus dynamisch Content á la "kaufen sie XYZ bei Shop ABC!" generieren. Auch bei sowas kann man seine Schlüsse ziehen, wenn jede noch so blöde Anfrage brav mit einem 200er beantwortet wird.
Genau aus diesem Grund würde ich an Yahoos Stelle eine bessere Methode wählen, z.B. die Request-URL komplett aus lauter Zufallsbuchstaben erzeugen.
Viele Grüße,
Robert