Ingon: Offline Reader sollen draussen bleiben

Hallo,

in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen. Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.

Die Lösung mittels Form- oder Javascript Links kenne ich. Ich möchte aber nicht die komplette Seite umbauen.

Gruß Ingo

  1. Hi,

    Kann ich etwas dagegen tun.

    nein, schon gar nicht mit einer clientseitig ausgewerteten Strukturbeschreibungssprache.

    htaccess

    "Serverkonfiguration" nennt sich das, was Du meinst. Nein. Es existiert serverseitig kein Weg, den Client oder seinen "Typus" zu identifizieren.

    Die Lösung mittels Form- oder Javascript Links kenne ich.

    Erklär sie mir bitte, ich kenne sie nämlich noch nicht.

    Cheatah

    --
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    1. hi

      Erklär sie mir bitte, ich kenne sie nämlich noch nicht.

      ich vermute er meint navigationslösungen die mit formularen oder javascript funktionieren.
      einige offlinereader sind nicht in der lage "links" zu folgen, die z.B. im action attribut eines formulars stehen oder via onlick= oder href="javascript: in verbindung mit location.href oder dem aufruf einer javascript funktionieren.

      so long
      ole
      (8-)>

      1. Hi,

        ich vermute er meint navigationslösungen die mit formularen oder javascript funktionieren.
        einige offlinereader sind nicht in der lage "links" zu folgen, die z.B. im action attribut eines formulars stehen oder via onlick= oder href="javascript: in verbindung mit location.href oder dem aufruf einer javascript funktionieren.

        na prima. Das sind einige "Onlinereader" ebenfalls nicht.

        Cheatah

        --
        X-Will-Answer-Email: No
        X-Please-Search-Archive-First: Absolutely Yes
        1. na prima. Das sind einige "Onlinereader" ebenfalls nicht.

          Ich habe ja nicht behauptet das es die beste Lösung ist :)

          Gruß Ingo

          1. Hi,

            na prima. Das sind einige "Onlinereader" ebenfalls nicht.
            Ich habe ja nicht behauptet das es die beste Lösung ist :)

            eine Lösung, die unter bestimmten, absolut üblichen Fällen nicht funktioniert, ist weder gut noch schlecht - es ist *keine* Lösung.

            Cheatah

            --
            X-Will-Answer-Email: No
            X-Please-Search-Archive-First: Absolutely Yes
  2. Hallo,

    in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen. Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.

    1. Warum freust du dich nicht über mehr Zugriffe?
    2. Was sind 'Offlinereader'?

    gruß,
    Severin

    --
    Realität ist das, was nicht verschwindet, wenn man aufhört, daran zu glauben.
    --Philip K. Dick
      1. Warum freust du dich nicht über mehr Zugriffe?

      Weil viele Seitenzugriffe > hoher Traffic > viel Geld kostet.

      1. Was sind 'Offlinereader'?

      Siehe andere Antworten.

      Gruß Ingo

      1. Moin!

        1. Warum freust du dich nicht über mehr Zugriffe?

        Weil viele Seitenzugriffe > hoher Traffic > viel Geld kostet.

        Warum stellst du dann die Informationen online?

        SelfHTML hat im Monat fast 200 GB Traffic - und nutzt alle Möglichkeiten, per Datenkompression diesen Wert möglichst gering zu halten, ansonsten wären 1000 GB im Monat absolut kein Problem.

        Was hindert dich daran, die Seite beim erreichen einer gewissen Traffic-Grenze abzuschalten? Oder teilweise abzuschalten? Wenn du angebliche "Sauger" raushalten willst, bist du dazu ja sowieso bereit - nur eben durch eine andere Selektion.

        - Sven Rautenberg

        --
        "Beim Stuff für's Web gibts kein Material, was sonst das Zeugs ist, aus dem die Sachen sind."
        (fastix®, 13. Oktober 2003, 02:26 Uhr -> </archiv/2003/10/60137/#m338340>)
  3. Hallo,

    in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen.

    Na und?

    Diese Leute kopieren halt alles auf einmal auf ihre Harddisk.
    Z.B. weil sie es im Zug oder im Ferienhaeuschen lesen wollen.
    Dafuer lassen sie Deinen Webserver in Zukunft in Ruhe.
    Unter Umstaenden _sparst_ Du sogar Traffic.

    Hast Du ueberhaupt die richtigen Logs angeguckt?
    Oder bloss die bunten "Statistiken"?

    Was steht denn jeweils im Useragent-String?
    Hast Du Dich mal schlau gemacht, ob es wirklich Offline-Reader,
    und nicht etwa Suchmaschinen-Robots sind?

    Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.

    Du koenntest eine robots.txt schreiben, die spezifisch den
    namentlich bekannten Offline-Readern den Zugriff untersagt.
    http://www.robotstxt.org/wc/robots.html

    Anstaendige Offline-Reader von anstaendigen Benutzern
    halten sich daran.
    Unanstaendige Offline-Reader oder anstaendige Offline-Reader
    mit unanstaendigen Benutzern setzen sich aber darueber hinweg.

    Eine Idee waere noch das "ausbremsen".
    D.h. eine absichtliche Verzoegerung beim Ausliefern jeder
    einzelnen Datei. Das nervt aber auch menschliche Besucher sehr.

    Man moechte also versuchen, die Verzoegerung nur bei den
    Benutzern anzuwenden, die in sehr kurzen Abstaenden sehr
    viele Dateien anfordern.
    Die Hauptschwierigkeit ist das Erkennen von einzelnen Benutzern.
    Stichworte: Sessions, IP-Adresse kombiniert mit User-Agent-String.
    All das ist aber nicht zuverlaessig und hat viele Nachteile.

    Ich wuerde es einfach vergessen.

    Die Lösung mittels Form- oder Javascript Links kenne ich. Ich möchte aber nicht die komplette Seite umbauen.

    JavaScript als "Navigations-Loesung"? Vergiss es!
    Du wuerdest damit extrem viel Schaden anrichten, d.h. Deine
    Seiten fuer viele Benutzer und _alle_ Robots (inklusive
    Suchmaschinen-Spider) unbenutzbar machen.

    Gruesse,

    Thomas

    1. Diese Leute kopieren halt alles auf einmal auf ihre Harddisk.
      Z.B. weil sie es im Zug oder im Ferienhaeuschen lesen wollen.
      Dafuer lassen sie Deinen Webserver in Zukunft in Ruhe.
      Unter Umstaenden _sparst_ Du sogar Traffic.

      Glaube ich  nicht, die Seite ist stark Bildlastig, ein menschlicher Betrachter gibt irgendwann auf.

      Hast Du ueberhaupt die richtigen Logs angeguckt?
      Oder bloss die bunten "Statistiken"?

      Die Bunten sollten da reichen, wenn ich eine IP sehe welche hohe Datenübertragung hat und gleichzeitig die Seitenzugriffe von 5000 auf 50000/tag steigen.

      Was steht denn jeweils im Useragent-String?
      Hast Du Dich mal schlau gemacht, ob es wirklich Offline-Reader,
      und nicht etwa Suchmaschinen-Robots sind?

      Die Suchmaschienen schicke ich in eine andere Richtung in die tiefen der Seite dürfen sie nicht. (Meta Tag noindex, nofollow ab der startseite)

      Du koenntest eine robots.txt schreiben, die spezifisch den
      namentlich bekannten Offline-Readern den Zugriff untersagt.
      http://www.robotstxt.org/wc/robots.html

      Danke, werde ich ansehen.

      Ich wuerde es einfach vergessen.

      10GB freier Traffic, wenn an einem Tag ein knappes GB durchgeht kostets mich Geld.

      JavaScript als "Navigations-Loesung"? Vergiss es!
      Du wuerdest damit extrem viel Schaden anrichten, d.h. Deine
      Seiten fuer viele Benutzer und _alle_ Robots (inklusive
      Suchmaschinen-Spider) unbenutzbar machen.

      Robots dürfen eh nicht rein, gibt es noch User ohne Javascript? Die Lösung ist mir aber auch unsympatisch.

      Danke Ingo

  4. wer suchet der findet:

    http://www.bananajoe.de/beispiele.html#7

    1. Hi,

      wer suchet der findet:

      und oft findet er Schwachsinn, so auch hier.

      http://www.bananajoe.de/beispiele.html#7

      Wie ich schon sagte: Es existiert serverseitig kein Weg, den Client oder seinen "Typus" zu identifizieren.

      Cheatah

      --
      X-Will-Answer-Email: No
      X-Please-Search-Archive-First: Absolutely Yes
    2. Huhu Ingon

      wer suchet der findet:

      http://www.bananajoe.de/beispiele.html#7

      dann hast Du sicherlich auch dieses gelesen
      <quote>
      Diese Art des Ausschliessens bietet leider keine 100% Sicherheit, da die meisten Programme zum Sitedownload in der Lage sind sich zu tarnen, d.h. sie bieten die Option ihren USER_AGENT zu verändern.
      </quote>

      Freu Dich doch wenn viele Deine Seite so interessant finden, dass sie sie komplett haben wollen.
      Um den Traffic zu reduzieren könntest Du ja auch Deine Inhalte selbst an prominenter Stelle gezipped zum Download anbieten.

      Viele Grüße

      lulu

      --
      bythewaythewebsuxgoofflineandenjoytheday
      1. Hallo Lulu,

        Ich bin mit Dir einverstanden, dass es unzuverlaessig bis
        untauglich ist, sich auf den Useragent-String zu verlassen.

        Um den Traffic zu reduzieren könntest Du ja auch Deine Inhalte selbst an prominenter Stelle gezipped zum Download anbieten.

        Er sprach von "bildlastig".
        Wenn er es richtig macht, sind die Bilder schon komprimiert (JPEG/GIF).
        Ein ZIP bringt dann _trafficmaessig_ kaum mehr was.
        (Nur bei Text wie z.B. HTML oder Word-Docs kann man
        durch Kompression sehr viel sparen...)
        Aber _ein_ ZIP statt hunderte bis tausende Dateien
        wuerde die Anzahl Anfragen reduzieren, und somit
        AFAIK die Serverlast.

        Gruesse,

        Thomas

    3. Hallo,

      wer suchet der findet:
      http://www.bananajoe.de/beispiele.html#7

      => </faq/#Q-19>
      http://www.bananajoe.de/beispiele.html#7

      Diese "Loesung" (mit Server-Konfiguration den "boesen"
      Useragents eine 403 zu schicken) ist sehr unzuverlaessig.

      Der Useragent-String laesst sich beliebig manipulieren.

      Wenn jemand unbedingt Deine Seiten saugen will, dann
      nimmt er einen Offline-Reader, der sich als MS IE 5.5
      (oder sonst irgendein normaler Browser) tarnt.
      Dagegen hast Du keine Chance.

      Solche Loesungen (und auch die robots.txt) funktionieren
      nur, solange anstaendige Offline-Reader von anstaendigen
      Benutzern losgeschickt werden. Gegen die andern kannst
      Du Dich wie gesagt kaum wehren, ohne grosse Nachteile
      in Kauf zu nehmen.

      ---

      Und wenn Du zu faul bist, um das Logfile an sich anzuschauen,
      um der Sache auf den Grund zu gehen, ist das Dein Pech.

      Mit dem UserAgent String und/oder der IP-Adresse wuerdest
      Du hier (sowie mit einer Google/Google Groups Suche) bestimmt
      bessere Antworten kriegen als bloss mit der Aussage:
      "Ich habe mehr Traffic und vermute einen Offline-Reader dahinter."

      Gruesse,

      Thomas

      1. habe d'ehre

        Und wenn Du zu faul bist, um das Logfile an sich anzuschauen,
        um der Sache auf den Grund zu gehen, ist das Dein Pech.

        - Er hat ein Problem, welches er nicht haben will.
         - Er fragte hoeflich nach, ob jemand eine Loesung fuer sein Problem kennt.

        Es mag ja sein, dass die Loesung (wenn es denn eine gibt) noch andere nachteilige Nebenwirkung hat.

        Aber ihm deshalb gleich Faulheit zu unterstellen und ihn anzumachen halte ich fuer unangemessen.

        BTW: Ich weiss keine Loesung, sehe aber auch sein Problem nicht als wirkliches Problem.

        carpe diem
        Wilhelm

        1. Hallo,

          Aber ihm deshalb gleich Faulheit zu unterstellen und ihn anzumachen halte ich fuer unangemessen.

          Meine Kritik bezog sich auf sein Posting weiter unten
          im Thread: [pref:t=65976&m=375940] (17:08 h)

          Dort sagt er, dass es sich mit den "bunten Statistiken"
          zufrieden gibt, anstatt ins richtige Logfile zu gucken.
          Das _ist_ in meinen Augen Faulheit.

          Im Logfile faende er naemlich vielleicht Hinweise, die ihm
          besser weiterhelfen koennten als all unsere Spekulationen
          hier im Forum.
          (Ohne Nennung eines Useragent-Strings oder einer IP-Adresse
          kann man sowieso nur glaskugeln.)

          Es gibt ja auch anstaendige Robots.
          Und die hinterlassen verwertbare Spuren.

          Z.B. den (nicht manipulierten) Useragent String.
          Dort steht oft die URL einer Seite, wo man Infos ueber
          den Robot findet, u.a. auch, wie man sich vor diesem
          Robot schuetzen kann.

          Solange Ingon nicht ins Logfile guckt, kommt
          er an viele wesentliche Infos einfach nicht heran.

          Gruesse,

          Thomas

  5. Hallo,

    Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.

    Ja, die gesamten Seitenstruktur auf Sessions aufbauen, ein Limit festlegen, und wenn das Limit erreicht ist, bekommt diese Session keine Daten mehr. Damit kannst Du den Traffic etwas einschränken, mehr aber nicht. Und mein Offline-Reader läuft übrigens aus Fairnessgründen über den Proxy meines Providers, da sind dann alle Zugriffe von einer IP-Gruppe und das von mehreren Leuten gleichzeitig.

    Gruss, Thoralf

    --
    Sic Luceat Lux!