Wie arbeiten Bots eigentlich ?
Frank
- menschelei
0 the code0 Christoph Schnauß0 Eternius0 Frank
0 Ingo Turski
Hi,
läuft zwar unter Menschelei, ist aber durchaus ein ernster Topic ...
Ich hab Gestern für einen Ordner eine RewriteRule erstellt:
Altes Textfile -> jetzt neu -> gleiche Stelle, gleiche Welle in Datenbank.
Jetzt guck ich grad den BotLog durch und merke:
Sch... !!!, der komische Mozilla/5.0 (compatible; Yahoo! Slurp; ...
greif sich immer noch die alten (noch bestehenden) Dateien.
Macht der use cgi -> get oder wie arbeitet der (die Bots) eigentlich ?
Und wer ist der Mozilla/5.0 (compatible; Yahoo! Slurp; ... überhaupt ?
Der macht mehr Traffic als alle anderen Besucher zusammen !!!
Das kann doch nicht nur einer sein, oder ?
Ist das 'ne Trittbrettfahrer-Kennung, oder was passiert da ?
Wünsche Schönes WoEnd,
Grüsse, Frank
Hi,
läuft zwar unter Menschelei, ist aber durchaus ein ernster Topic ...
Finde ich auch!
Ich hab Gestern für einen Ordner eine RewriteRule erstellt:
Altes Textfile -> jetzt neu -> gleiche Stelle, gleiche Welle in Datenbank.
Jetzt guck ich grad den BotLog durch und merke:
Sch... !!!, der komische Mozilla/5.0 (compatible; Yahoo! Slurp; ...
greif sich immer noch die alten (noch bestehenden) Dateien.
Macht der use cgi -> get oder wie arbeitet der (die Bots) eigentlich ?
Bei z.B. yahoo greift der Bot nach vorhandenen Einträgen,
d.h.,dass man sich erst eintragen muss,um mit spielen zu können!
Versuch es mal mit [URL:www.google.de]!
vllt. klappt es hier,wenns sonst nicht geklappt hat!
good luck!
m.f.G.
the code
Versuch es mal mit [URL:www.google.de]!
Ich meinte <www.google.de>!
trozdem good luck!
m.f.G.
the code
hallo,
Ich meinte <www.google.de>!
Nein, meintest du nicht. Aber du wolltest ja schon längst mal in der Forums-Hilfe nachschlagen, um zu erfahren, weshalb du vermutlich http://www.google.de gemeint hast.
Grüße aus Berlin
Christoph S.
hi,
Nein, meintest du nicht. Aber du wolltest ja schon längst mal in der Forums-Hilfe nachschlagen, um zu erfahren, weshalb du vermutlich http://www.google.de gemeint hast.
Ja danke schön und gute Nacht!
m.f.G. the code
hallo,
der komische Mozilla/5.0 (compatible; Yahoo! Slurp; ...
greif sich immer noch die alten (noch bestehenden) Dateien.
Macht nichts. Das ist der Yahoo-Suchroboter, der dir nichts anderes tut, als dich in der Yahoo-Suche verständnisvoll zu begleiten.
Der macht mehr Traffic als alle anderen Besucher zusammen !
Ein Zeichen dafür, daß deine Seite ziemlich sehr uninteressant ist.
Zum Vergleichen bitte mal https://forum.selfhtml.org/?t=138555&m=900089 nachlesen.
Grüße aus Berlin
Christoph S.
Hallo,
Sch... !!!, der komische Mozilla/5.0 (compatible; Yahoo! Slurp; ...
den wichtigen Teil hast du unterschlagen: http://help.yahoo.com/help/us/ysearch/slurp.
gruss
p.s. Nächstes Mal Suchmaschine benutzen!
Hallo Eternius,
den wichtigen Teil hast du unterschlagen: http://help.yahoo.com/help/de/ysearch/slurp.
Sorry, den wollte ich nicht unterschlagen.
Aber da steht auch ganz klar was von CACHE !
Und wenn der die Seiten in seinen Cache legt,
dann verstehe ich nicht, warum der jeden Tag ca. 2.000 mal angeeiert kommt.
Google und alle anderen machen das zwar auch mal,
aber nur in längeren Intervallen und nicht JEDEN Tag.
Deswegen bleibt meine Frage nach der Trittbrettfahrer-Kennung.
Slurp hat bei mir zwar meist 'ne 72.30.* oder 74.6.* IP, aber das muss ja auch nix heissen.
Sind Euch SpamBots bekannt, die sich auch als Slurp ausgeben ?
Und falls Ja: Wie kann man die knacken ?
Wahrscheinlich gar nicht, oder ?
Grüsse, Frank
Hi,
Und wenn der die Seiten in seinen Cache legt,
dann verstehe ich nicht, warum der jeden Tag ca. 2.000 mal angeeiert kommt.
Die Seiten erscheinen ihm interessant genug, um zu prüfen, ob sie geändert wurden.
Vielleicht handelt es sich auch um Seiten mit dynamischen Inhalten, die tatsächlich oft wechseln?
Slurp hat bei mir zwar meist 'ne 72.30.* oder 74.6.* IP, aber das muss ja auch nix heissen.
Doch. Das sind die IP-Blöcke INKTOMI-BLK-5 und INKTOMI-BLK-6, also eindeutig Anforderungen von bzw. für Yahoo.
Sind Euch SpamBots bekannt, die sich auch als Slurp ausgeben ?
Aktuell verzeichne ich in meinen Logs keine.
Im September hatte ich 2729 Anfragen mit "Slurp" im UA. Alle kamen von Inktomi. 2542* Slurp, 180* Slurp China und 7* Slurp/si-emb.
Dazu kommen noch einige Inktomi-Zugriffe mit anderen Kennungen - zweimal gab er sich sogar als Googlebot aus; erst eine HEAD-Abfrage, ob die Resource existiert und dann ein normaler GET, den allerdings mit dem Zusatz "(via babelfish.yahoo.com)" in der Kennung.
Apropos Übersetzungen: Zugriffe über http://tools.search.yahoo.com/language/translation/interstitial.php forderten die Seiten mit einer regulären Firefox/1.5.0.7-Kennung an (möglicherweise die des Nutzers).
Und zwar selten, aber regelmäßig tarnt sich der Bot auch als MSIE6.
Und falls Ja: Wie kann man die knacken ?
Du kannst die IPs prüfen und ggfls. einen Fehlercode zurückliefern.
freundliche Grüße
Ingo
Hi,
Macht der use cgi -> get oder wie arbeitet der (die Bots) eigentlich ?
die fordern ganz normal über HTTP die verlinkten oder gespeicherten Resourcen an. Speziell der Inktomi-Bot hat ein viel zu langes Gedächtnis.
Und wer ist der Mozilla/5.0 (compatible; Yahoo! Slurp; ... überhaupt ?
Der macht mehr Traffic als alle anderen Besucher zusammen !!!
Ja, der kommt recht häufig. Meist als:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
in letzter Zeit auch aus China:
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
Das kann doch nicht nur einer sein, oder ?
Inktomi hat natürlich etliche Bots im Einsatz.
Ist das 'ne Trittbrettfahrer-Kennung, oder was passiert da ?
Nein, Unter diesen Kennungen kommt wirklich meist nur der Yahoo-Bot, wie Du an den IPs feststellen kannst.
freundliche Grüße
Ingo
Hi Ingo,
Macht der use cgi -> get oder wie arbeitet der (die Bots) eigentlich ?
die fordern ganz normal über HTTP die verlinkten oder gespeicherten Resourcen an ...
Hmmmh,
dann müsste er bei den ganz alten Gurken, die im Dateinamen noch nicht kompatibel sind,
laut RewriteRule und folgendem script aber auf der index.html landen
und dürfte an Bsp.: 1999/november8.html gar nicht rankommen.
Insofern kann der Zugriff imho nicht "ganz normal über http" sein.
Grüsse, Frank
Hi,
laut RewriteRule und folgendem script aber auf der index.html landen
wo er "landet" ist irrelevant. Wenn er eine URI kennt (entweder durch frühere Besuche oder vielleicht auch einen veralteten Link im Netz), dann fordert er diese an. Der Statuscode im Logfile sagt Dir dann, was er ausgeliefert bekommt.
Insofern kann der Zugriff imho nicht "ganz normal über http" sein.
Doch. Ein ganz normaler GET-Request. Nur mit dem Unterschied, dass er z.B. Weiterleitungen nicht zwangsweise folgt.
freundliche Grüße
Ingo
Hi Ingo,
Danke !
Insofern kann der Zugriff imho nicht "ganz normal über http" sein.
Doch. Ein ganz normaler GET-Request. Nur mit dem Unterschied, dass er z.B. Weiterleitungen nicht zwangsweise folgt.
Wie ?
Obwohl die .htaccess und somit der Server ihm sagt:
"Hallo erstmal, Du hast hier keine html-Files mehr aus den Unterordnern zu holen",
kann er sich trotzdem entscheiden: "Ist mir egal, mach ich trotzdem" ?
Ist das Usus ?
Dann könnte man ihn nur durch Passwortschutz oder Dateilöschung davon abhalten, oder ?
freundliche Grüße
Frank
hi,
Obwohl die .htaccess und somit der Server ihm sagt:
"Hallo erstmal, Du hast hier keine html-Files mehr aus den Unterordnern zu holen",
kann er sich trotzdem entscheiden: "Ist mir egal, mach ich trotzdem" ?
Mach dir bitte mal klar, dass nicht jeder anfragende Client vom Server auch das bekommen muss, was er will - dass ihn das nicht daran hindert, es trotzdem anzufragen, sollte doch wohl klar sein.
Also gewöhne dir mal an, HTTP mit Verstand einzusetzen.
gruß,
wahsaga
Hi,
Dann könnte man ihn nur durch Passwortschutz oder Dateilöschung davon abhalten, oder ?
auch dann würde er eine Resource anfordern, die auf seiner Liste steht - sei es, dass sie in seiner veralteten Datenbank steht oder dass er einem veralteten Link im Netz folgen will.
freundliche Grüße
Ingo
hi,
dann müsste er bei den ganz alten Gurken, die im Dateinamen noch nicht kompatibel sind,
laut RewriteRule und folgendem script aber auf der index.html landen
Wenn eine Ressource nicht mehr verfügbar ist, gibt es dafür den HTTP Status Code "410 Gone" - also solltest du auf solche Anfragen auch mit diesem antworten.
Wenn du stattdessen deine index.html auslieferst, ist das so ziemlich das blödeste, was du machen kannst: Der Anfragende bekommt eine Ressource mit dem wunderschönen Statuscode "200 OK" geliefert - wie soll er denn da jetzt wissen, dass etwas schief gegangen ist?
gruß,
wahsaga
hi christopher,
Danke Du Schlaufuchs,
aber:
1. scheint 1und1 nur den 404er zu kennen,
2. verstehe ich selbst den Unterschied zwischen 404 und 410 nicht,
3. ist es kein 410er, weil zu 98 % eine neue URI bekannt ist, und
4. wüsste ich nicht, wie ich eine Variable an eine ERROR-Seite übergeben kann.
Kannst Du mir sagen, wie ich in der 404er Seite erfahren kann,
welches Dokument eigentlich angefordert wurde ?
DAS würd' mir wirklich weiterhelfen !!!
___________
Ansonsten:
Ich rede von über 6.400 Textfiles.
Davon kann ich ca. 120 über die RewriteRule nicht zuordnen.
Wenn ich mich jetzt entscheiden muss:
Zeige ich 6.400 Besuchern eine (mehr oder weniger statische) ERROR-Seite,
oder leite ich 6.280 davon zu den gewünschten Inhalten weiter,
dann muss ich da nicht lange überlegen ...
___________
Ein Grundproblem scheint dabei aber leider zu bleiben.
(ich mach so eine tiefgreifende Strukturänderung auch nicht jeden Tag, sondern genaugenommen zum 1. Mal)
Wie ich gerade merke,
kann ich die alten Seiten anscheinend vorerst nicht löschen,
weil sonst der 404er-ERROR statt der RewriteRule greift.
Das hätte ich mir anders gewünscht !
Hmmmh, jetzt muss ich entweder die alten Seiten noch stehen lassen,
bis die MySQL-Abfragen bei den Bots indexiert sind,
oder ich krieg doch noch raus,
wie ich in der 404er-Seite die eigentlich angeforderte Ressource erfahre.
Kann mir da jemand 'nen Tipp geben ?
Oder geht das gar nicht ?
Grüsse, Frank
Nachtrag:
OK, den Unterschied kenne ich jetzt.
______________
410 – Gone
Wenn Sie Ressourcen komplett aus Ihrer Website entfernt haben (natürlich nur, wenn es einen guten Grund gibt), sollten Sie keinen 404er, sondern Fehlercode 410 senden. Im Apache Webserver erreichen Sie dies über die Zeile
Redirect Gone /foo/bar
in der Zugriffskontrolldatei. Dadurch wird unmissverständlich klar, dass es die angeforderte Ressource unter diesem URI zwar mal gegeben hat, sie aber nicht aufgrund eines Versehens oder Fehlers vorübergehend nicht verfügbar ist, sondern bewusst aus dem Netz genommen wurde. Wählen Sie eine Formulierung wie »Das angeforderte Dokument ist nicht mehr verfügbar« oder ähnliches.
Quelle: [Link:http://jendryschik.de/wsdev/fehlerseiten/]
______________
Aber trotzdem hab ich keinen 410er.
Ich würde schon gern übermitteln:
"Hallo, die Seite gibt's nicht mehr, stattdessen in Zukunft bitte http://xxx aufrufen.
Geht das irgendwie ?
Grüsse, Frank
Gut Gut,
dann wäre ich also beim 301er :)
Trotzdem: WIEEEE übergebe ich die neue URI ?
Ausserdem scheint 1und1 den nicht zu kennen,
sonst hätte ich schon öfter einen 301er kriegen müssen.
Oder muss ich den für 6.400 Seiten in der .htaccess deklarieren ?
Grüsse, Frank
Puuuh,
kann mir mal jemand ins IndianerDeutsch übersetzen ?
RewriteEngine on
RewriteBase /
RewriteRule ^(.*)/(.*)/(.*).html$ http://beimir.de/meine.html?$1/$2/$3 [redirect,last]
Würde das reichen um einen korrekten 301er zu erzeugen und auch die weiter unten stehenden 404er etc zu umgehen ?
Oder muss ich RewriteCond noch irgendwo drinhaben ?
bzw. krieg ich das über RewriteCond irgendwie einfacher hin?
Ich bin nicht so der Englisch-Freak,
und 'ne gute deutschsprachige rewrite_mod Anleitung hab ich noch nicht gefunden ...
Grüsse, Frank
Hiho,
ist ja alles nicht so einfach ...
RewriteRule ^(.*)/(.*)/(.*).html$ http://beimir.de/meine.html?$1/$2/$3 [redirect,last]
Der geht gut, obwohl ich immer noch nicht weiss, ob da ein ERROR 301 ausgegeben wird.
Allerdings geht der folgende nicht, auch wenn ich ihn ÜBER den oberen stelle:
RewriteRule ^2000/(.*)/(.*).html$ http://beimir.de/error.html?$1/$2 [gone,last]
Da krieg ich nicht meine ERROR-Seite, sondern garnix mit "Die Seite kann nicht angezeigt werden."
Allerdings würde ich für meine alten Gurken schon gern ERROR 410 übermitteln.
Was mache ich falsch ?
Grüsse, Frank