andreas : Suchmaschinen-Robots

Hallo!

In den Logfiles habe ich mal ein bisschen nach Suchmaschinen-Robots geguckt, da habe ich ein paar gefunden, nämlich googlebot, inktomi, KIT-Fireball, WISEnutbot. Jetzt erstmal die Frage ob das alle wichtigen sind, oder fehlen da welche? z.B. vermisse ich Altavista, oder haben die keinen eigenen wie web.de und yahoo?

Warum geben die eigentlich alle ihren Namen preis, dadurch kann man ja die Ausgabe manipulieren, was mir schon des öfteren aufgefallen ist!

Ich habe noch ein paar Log-Einträge, die ich nicht ganz verstehe, weiß jemand was das ist?

Scooter-3.2.DIL

Java 1.1

Firefly/1.0

Mozilla/4.0 (compatible; BorderManager 3.0)
(das Teil von Novell??? was hat das mit den Logfiles zu tun???)

OstroSoft Internet Tools 3*
(War das ein Scan?)

Microsoft URL Control
???

Vielen Dank!
  Andreas

  1. Hier findest du fast alle wichtigen:

    http://www.robotstxt.org/wc/active/html/index.html

    Kevin

    1. Hi!
      Ja, habe ich gelesen, vielen Dank. Interessant wäre noch, woran man allgemein Suchmaschinen erkennt, denn ich denke die HTTP_USER_AGENTs werden sich öfter ändern, waren auf der Seite teilweise zuletzt 95' geändert worden! Die Suchmaschinen Namen, die man auch in der robot.txt einträgt, wie werden die übertragen? Kommen die auch aus dem AGENT, oder istr das was anders?
      Grüße
        Andreas

      1. Hi, Andreas

        Die Suchmaschinen Namen, die man auch in der robot.txt einträgt, wie werden die übertragen? Kommen die auch aus dem AGENT, oder istr das was anders?

        Der Robot sieht nach, ob es in robots.txt eine Regel gibt, die für ihn gilt. Entweder er hält sich daran, oder nicht. Wie der Robot heißt, ist letztlich egal, da er selbst bestimmt, was er sehen will.

        http://www.suchfibel.de/_webtools/search/search.pl?Realm=%26Match=0%26Terms=robots.txt

        LG Orlando

        1. Hi Orlando,

          Der Robot sieht nach, ob es in robots.txt eine Regel gibt, die für
          ihn gilt. Entweder er hält sich daran, oder nicht. Wie der Robot
          heißt, ist letztlich egal, da er selbst bestimmt, was er sehen will.

          naja, ein Apache könnte einen Robot, dessen UserAgent es erkennt,
          durchaus nachdrücklich zur Einhaltung der Regeln anhalten:

          1. mod_setEnvIf -> bedingtes Setzen     einer Environment-Variable
          2. mod_access   -> bedingtes "deny" auf diese Environment-Variable

          Und fertig ist das Robots-Ausschlußverfahren.

          Viele Grüße
                Michael