Linuchs: Habe eigentlich keine Lust, für Suchmaschinen zu arbeiten

Moin *)

seit ein paar Wochen melde ich runde Klick-Zahlen per Mail an die Veranstalter meines Kalenders. Das sieht dann etwa so aus:

Service vom klingenden Veranstaltungskalender remso:
Aufruf 100 und jeder 500. wird gemeldet

Liebe/r Fred xxx,

herzlichen Glückwunsch! Deine/eure Veranstaltung

**Konzert am Gaensebachers**
am xxx.xxx.2016 in xxx

wurde im Kalender remso.org seit Erfassung am 09.02.2016 jetzt zum 100. Mal aufgerufen.

Was wissen wir über diesen Aufruf?
* er kam von der Seite []
* er wurde um 22:06:20 Uhr mit der Sprach-Kennung [nds] angefordert (Anforderungen ohne Sprache sind Suchmaschinen).
* ausgeliefert wurde in [en], das betrifft z.B. die Namen der Monate und Wochentage. Und natürlich die Beschreibung, falls sie (auch) in dieser Sprache eingegeben wurde:
www.remso.org?TID=19734&lg=en
* Das aufrufende Programm (Browser) sendete diese Kennung:
[Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)]

Alle paar Minuten geht so eine Meldung raus, aber die aufrufenden Programme sind zu gefühlten 95% - 99% Suchmaschinen. Bin ich der Lakai für Roboter?

Irgendwie will ich das begrenzen, aber wie?

Moin *), Linuchs

*) Moin ist ein vor allem in Norddeutschland – Niedersachsen, Schleswig-Holstein, Bremen und Hamburg[1] –, im Süden Dänemarks (Süderjütland; dort üblicherweise mojn geschrieben[2][3]) und in Luxemburg (meist in der Form moien) verbreiteter Gruß, der zu jeder Tages- und Nachtzeit verwendet werden kann.[4] In einzelnen Regionen wird moin auch als Abschiedsgruß verwendet – in anderen Regionen nur als Morgengruß.

  1. Hallo,

    Alle paar Minuten geht so eine Meldung raus, aber die aufrufenden Programme sind zu gefühlten 95% - 99% Suchmaschinen. Bin ich der Lakai für Roboter?

    wieso stört dich das? Du hast doch keinen Stress damit, höchstens dein Webserver. Und lästig ist es sicher auch für diejenigen, die dann regelmäßig solche Erfolgsmeldungen bekommen, die in Wirklichkeit nichts aussagen.

    Irgendwie will ich das begrenzen, aber wie?

    Zähle bekannte Bots (Google, Bing, Yahoo) einfach nicht mit. Die meisten von ihnen sind an ihrem User Agent und/oder ihrer IP-Adresse zu erkennen.

    *) Moin ist ein vor allem in Norddeutschland – Niedersachsen, Schleswig-Holstein, Bremen und Hamburg[1] –, im Süden Dänemarks (Süderjütland; dort üblicherweise mojn geschrieben[2][3]) und in Luxemburg (meist in der Form moien) verbreiteter Gruß, der zu jeder Tages- und Nachtzeit verwendet werden kann.

    Das sollte man als Allgemeinwissen voraussetzen dürfen.

    So long,
     Martin

    1. Hi Martin,

      wieso stört dich das? Du hast doch keinen Stress damit, höchstens dein Webserver.

      Ich verstehe nicht, was das soll. Innerhalb von einer Woche dieselbe Veranstaltung 100 mal aufzurufen. Gilt das alte revisit-after im head eigentlich noch?

      Und lästig ist es sicher auch für diejenigen, die dann regelmäßig solche Erfolgsmeldungen bekommen, die in Wirklichkeit nichts aussagen.

      Würde mich auch nerven, aber die Aktivität der Teilnehmer ist seit diesen Mails gestiegen. Viel lieber würde ich sie ntürlich mit "echten", "menschlichen" Aufrufen erfreuen.

      Zähle bekannte Bots (Google, Bing, Yahoo) einfach nicht mit. Die meisten von ihnen sind an ihrem User Agent und/oder ihrer IP-Adresse zu erkennen.

      Vernünftige Idee. Doch da manche der öffentlichen Listen 1 sec brauchen, sind 3600 Aufrufe auch schon eine Stunde Serverzeit. Ich überlege, wie ich eine Light-Version an die Bots ausliefern könnte. Vielleicht HTML-Seiten ein paar Tage speichern und unverändert ausliefern ohne Programmdurchlauf?

      Linuchs

      1. Aloha ;)

        Vernünftige Idee. Doch da manche der öffentlichen Listen 1 sec brauchen, sind 3600 Aufrufe auch schon eine Stunde Serverzeit. Ich überlege, wie ich eine Light-Version an die Bots ausliefern könnte. Vielleicht HTML-Seiten ein paar Tage speichern und unverändert ausliefern ohne Programmdurchlauf?

        Vernünftig cachen ist doch allgemein sinnvoll - warum also nur für Bots? ;)

        Grüße,

        RIDER

        --
        Camping_RIDER a.k.a. Riders Flame a.k.a. Janosch Zoller
        # Facebook # Twitter # Steam # YouTube # Self-Wiki # Selfcode: sh:) fo:) ch:| rl:) br:^ n4:? ie:% mo:| va:) js:) de:> zu:} fl:( ss:) ls:[
      2. Hallo Linuchs,

        Gilt das alte revisit-after im head eigentlich noch?

        Das hat noch nie „gegolten.“ Oder um es mal so auszudrücken: die grösseren Suchmaschinen haben sich noch nie daran gehalten.

        LG,
        CK

  2. Ich logge schon seit Jahren mit ajax, da fliegen die bots alle raus. Der Request zum Loggen geht auf dieselbe Seite die aufgerufen wird und sendet einen proprietären Header den bots gar nicht kennen.

    1. Tach,

      Ich logge schon seit Jahren mit ajax, da fliegen die bots alle raus. Der Request zum Loggen geht auf dieselbe Seite die aufgerufen wird und sendet einen proprietären Header den bots gar nicht kennen.

      das funktioniert allerdings höchstens, wenn die Javascript-Implementation vom Googlebot gut genug ist, zu erkennen, dass du das Ergebnis des Requests nicht im DOM verwendest.

      mfg
      Woodfighter