hi,
Ich habe per Yahoo-Suche (bietet sich in diesem Falle wohl an) eine Seite gefunden, auf der behauptet wird, dass Yahoo damit versucht herauszufinden, wie die Webseiten auf HTTP 404er reagieren.
Ja - kannst du auch direkt bei Yahoo nachlesen: http://help.yahoo.com/help/us/ysearch/slurp/slurp-10.html
Falls die obige Aussage stimmen sollte, weshalb sollte es sinnvoll sein, sich die HTTP 404er Antworten von Servern anzuschauen?
Weil es viel zu viele Deppen gibt, die die Adresse ihres ErrorDocuments mit http:// beginnend angeben - was dann einen Redirect auf das Fehlerdokument, und damit einen 200er Status auslöst.
Da hast du als Bot kaum noch eine Chance, nicht mehr existente Ressourcen ausfindig zu machen - plötzlich liefert ja alles ein "gültiges" Ergebnis.
Also hat man sich bei Yahoo gedacht, lassen wir den Bot doch mal ein Paar Ressourcen anfordern, die ziemlich sicher _nicht_ existieren dürften - wenn die alle einen 200er ergeben, können wir schon mal davon ausgehen, dass was faul ist - und unsere Schlüsse daraus ziehen.
Neben den Deppen sind natürlich auch noch die Schurken ein Problem für die SuMas - Seiten, die auf so gut wie jede Anfrage ein Ergebnis zurückliefern - einfach Bestandteile aus dem URL nehmen, und dann daraus dynamisch Content á la "kaufen sie XYZ bei Shop ABC!" generieren. Auch bei sowas kann man seine Schlüsse ziehen, wenn jede noch so blöde Anfrage brav mit einem 200er beantwortet wird.
Außerdem kann man doch mit Techniken wie mod_rewrite alle Request nach /SlurpConfirm404 auf eine tatsächlich existierende Seite umleiten und damit die „404er-Untersuchung“ sabotieren.
Ja, könnte man.
Dann muss sich Yahoo halt bald was neues überlegen - z.b. die angeforderten Adressen stärker variieren.
gruß,
wahsaga
/voodoo.css:
#GeorgeWBush { position:absolute; bottom:-6ft; }