Suchmaschinen-Robots
andreas
- programmiertechnik
0 Kevin
Hallo!
In den Logfiles habe ich mal ein bisschen nach Suchmaschinen-Robots geguckt, da habe ich ein paar gefunden, nämlich googlebot, inktomi, KIT-Fireball, WISEnutbot. Jetzt erstmal die Frage ob das alle wichtigen sind, oder fehlen da welche? z.B. vermisse ich Altavista, oder haben die keinen eigenen wie web.de und yahoo?
Warum geben die eigentlich alle ihren Namen preis, dadurch kann man ja die Ausgabe manipulieren, was mir schon des öfteren aufgefallen ist!
Ich habe noch ein paar Log-Einträge, die ich nicht ganz verstehe, weiß jemand was das ist?
Scooter-3.2.DIL
Java 1.1
Firefly/1.0
Mozilla/4.0 (compatible; BorderManager 3.0)
(das Teil von Novell??? was hat das mit den Logfiles zu tun???)
OstroSoft Internet Tools 3*
(War das ein Scan?)
Microsoft URL Control
???
Vielen Dank!
Andreas
Hier findest du fast alle wichtigen:
http://www.robotstxt.org/wc/active/html/index.html
Kevin
Hi!
Ja, habe ich gelesen, vielen Dank. Interessant wäre noch, woran man allgemein Suchmaschinen erkennt, denn ich denke die HTTP_USER_AGENTs werden sich öfter ändern, waren auf der Seite teilweise zuletzt 95' geändert worden! Die Suchmaschinen Namen, die man auch in der robot.txt einträgt, wie werden die übertragen? Kommen die auch aus dem AGENT, oder istr das was anders?
Grüße
Andreas
Hi, Andreas
Die Suchmaschinen Namen, die man auch in der robot.txt einträgt, wie werden die übertragen? Kommen die auch aus dem AGENT, oder istr das was anders?
Der Robot sieht nach, ob es in robots.txt eine Regel gibt, die für ihn gilt. Entweder er hält sich daran, oder nicht. Wie der Robot heißt, ist letztlich egal, da er selbst bestimmt, was er sehen will.
http://www.suchfibel.de/_webtools/search/search.pl?Realm=%26Match=0%26Terms=robots.txt
LG Orlando
Hi Orlando,
Der Robot sieht nach, ob es in robots.txt eine Regel gibt, die für
ihn gilt. Entweder er hält sich daran, oder nicht. Wie der Robot
heißt, ist letztlich egal, da er selbst bestimmt, was er sehen will.
naja, ein Apache könnte einen Robot, dessen UserAgent es erkennt,
durchaus nachdrücklich zur Einhaltung der Regeln anhalten:
1. mod_setEnvIf -> bedingtes Setzen einer Environment-Variable
2. mod_access -> bedingtes "deny" auf diese Environment-Variable
Und fertig ist das Robots-Ausschlußverfahren.
Viele Grüße
Michael