Offline Reader sollen draussen bleiben
Ingon
- html
0 Cheatah0 Severin Kacianka0 ingon
0 Thomas Luethi0 ingon
0 ingon >>Lösung0 Cheatah0 lulu0 Thomas Luethi
0 Thoralf Knuth
Hallo,
in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen. Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.
Die Lösung mittels Form- oder Javascript Links kenne ich. Ich möchte aber nicht die komplette Seite umbauen.
Gruß Ingo
Hi,
Kann ich etwas dagegen tun.
nein, schon gar nicht mit einer clientseitig ausgewerteten Strukturbeschreibungssprache.
htaccess
"Serverkonfiguration" nennt sich das, was Du meinst. Nein. Es existiert serverseitig kein Weg, den Client oder seinen "Typus" zu identifizieren.
Die Lösung mittels Form- oder Javascript Links kenne ich.
Erklär sie mir bitte, ich kenne sie nämlich noch nicht.
Cheatah
hi
Erklär sie mir bitte, ich kenne sie nämlich noch nicht.
ich vermute er meint navigationslösungen die mit formularen oder javascript funktionieren.
einige offlinereader sind nicht in der lage "links" zu folgen, die z.B. im action attribut eines formulars stehen oder via onlick= oder href="javascript: in verbindung mit location.href oder dem aufruf einer javascript funktionieren.
so long
ole
(8-)>
Hi,
ich vermute er meint navigationslösungen die mit formularen oder javascript funktionieren.
einige offlinereader sind nicht in der lage "links" zu folgen, die z.B. im action attribut eines formulars stehen oder via onlick= oder href="javascript: in verbindung mit location.href oder dem aufruf einer javascript funktionieren.
na prima. Das sind einige "Onlinereader" ebenfalls nicht.
Cheatah
na prima. Das sind einige "Onlinereader" ebenfalls nicht.
Ich habe ja nicht behauptet das es die beste Lösung ist :)
Gruß Ingo
Hi,
na prima. Das sind einige "Onlinereader" ebenfalls nicht.
Ich habe ja nicht behauptet das es die beste Lösung ist :)
eine Lösung, die unter bestimmten, absolut üblichen Fällen nicht funktioniert, ist weder gut noch schlecht - es ist *keine* Lösung.
Cheatah
Hallo,
in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen. Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.
gruß,
Severin
- Warum freust du dich nicht über mehr Zugriffe?
Weil viele Seitenzugriffe > hoher Traffic > viel Geld kostet.
- Was sind 'Offlinereader'?
Siehe andere Antworten.
Gruß Ingo
Moin!
- Warum freust du dich nicht über mehr Zugriffe?
Weil viele Seitenzugriffe > hoher Traffic > viel Geld kostet.
Warum stellst du dann die Informationen online?
SelfHTML hat im Monat fast 200 GB Traffic - und nutzt alle Möglichkeiten, per Datenkompression diesen Wert möglichst gering zu halten, ansonsten wären 1000 GB im Monat absolut kein Problem.
Was hindert dich daran, die Seite beim erreichen einer gewissen Traffic-Grenze abzuschalten? Oder teilweise abzuschalten? Wenn du angebliche "Sauger" raushalten willst, bist du dazu ja sowieso bereit - nur eben durch eine andere Selektion.
- Sven Rautenberg
Hallo,
in letzter Zeit tauchen in meinen Logs immer Seitenzugriffszahlen im 10-12 fachen des Normalen auf. Ich vermute mal sehr stark da werden Offlinereader auf meine Seite losgelassen.
Na und?
Diese Leute kopieren halt alles auf einmal auf ihre Harddisk.
Z.B. weil sie es im Zug oder im Ferienhaeuschen lesen wollen.
Dafuer lassen sie Deinen Webserver in Zukunft in Ruhe.
Unter Umstaenden _sparst_ Du sogar Traffic.
Hast Du ueberhaupt die richtigen Logs angeguckt?
Oder bloss die bunten "Statistiken"?
Was steht denn jeweils im Useragent-String?
Hast Du Dich mal schlau gemacht, ob es wirklich Offline-Reader,
und nicht etwa Suchmaschinen-Robots sind?
Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.
Du koenntest eine robots.txt schreiben, die spezifisch den
namentlich bekannten Offline-Readern den Zugriff untersagt.
http://www.robotstxt.org/wc/robots.html
Anstaendige Offline-Reader von anstaendigen Benutzern
halten sich daran.
Unanstaendige Offline-Reader oder anstaendige Offline-Reader
mit unanstaendigen Benutzern setzen sich aber darueber hinweg.
Eine Idee waere noch das "ausbremsen".
D.h. eine absichtliche Verzoegerung beim Ausliefern jeder
einzelnen Datei. Das nervt aber auch menschliche Besucher sehr.
Man moechte also versuchen, die Verzoegerung nur bei den
Benutzern anzuwenden, die in sehr kurzen Abstaenden sehr
viele Dateien anfordern.
Die Hauptschwierigkeit ist das Erkennen von einzelnen Benutzern.
Stichworte: Sessions, IP-Adresse kombiniert mit User-Agent-String.
All das ist aber nicht zuverlaessig und hat viele Nachteile.
Ich wuerde es einfach vergessen.
Die Lösung mittels Form- oder Javascript Links kenne ich. Ich möchte aber nicht die komplette Seite umbauen.
JavaScript als "Navigations-Loesung"? Vergiss es!
Du wuerdest damit extrem viel Schaden anrichten, d.h. Deine
Seiten fuer viele Benutzer und _alle_ Robots (inklusive
Suchmaschinen-Spider) unbenutzbar machen.
Gruesse,
Thomas
Diese Leute kopieren halt alles auf einmal auf ihre Harddisk.
Z.B. weil sie es im Zug oder im Ferienhaeuschen lesen wollen.
Dafuer lassen sie Deinen Webserver in Zukunft in Ruhe.
Unter Umstaenden _sparst_ Du sogar Traffic.
Glaube ich nicht, die Seite ist stark Bildlastig, ein menschlicher Betrachter gibt irgendwann auf.
Hast Du ueberhaupt die richtigen Logs angeguckt?
Oder bloss die bunten "Statistiken"?
Die Bunten sollten da reichen, wenn ich eine IP sehe welche hohe Datenübertragung hat und gleichzeitig die Seitenzugriffe von 5000 auf 50000/tag steigen.
Was steht denn jeweils im Useragent-String?
Hast Du Dich mal schlau gemacht, ob es wirklich Offline-Reader,
und nicht etwa Suchmaschinen-Robots sind?
Die Suchmaschienen schicke ich in eine andere Richtung in die tiefen der Seite dürfen sie nicht. (Meta Tag noindex, nofollow ab der startseite)
Du koenntest eine robots.txt schreiben, die spezifisch den
namentlich bekannten Offline-Readern den Zugriff untersagt.
http://www.robotstxt.org/wc/robots.html
Danke, werde ich ansehen.
Ich wuerde es einfach vergessen.
10GB freier Traffic, wenn an einem Tag ein knappes GB durchgeht kostets mich Geld.
JavaScript als "Navigations-Loesung"? Vergiss es!
Du wuerdest damit extrem viel Schaden anrichten, d.h. Deine
Seiten fuer viele Benutzer und _alle_ Robots (inklusive
Suchmaschinen-Spider) unbenutzbar machen.
Robots dürfen eh nicht rein, gibt es noch User ohne Javascript? Die Lösung ist mir aber auch unsympatisch.
Danke Ingo
wer suchet der findet:
http://www.bananajoe.de/beispiele.html#7
Hi,
wer suchet der findet:
und oft findet er Schwachsinn, so auch hier.
http://www.bananajoe.de/beispiele.html#7
Wie ich schon sagte: Es existiert serverseitig kein Weg, den Client oder seinen "Typus" zu identifizieren.
Cheatah
Huhu Ingon
wer suchet der findet:
http://www.bananajoe.de/beispiele.html#7
dann hast Du sicherlich auch dieses gelesen
<quote>
Diese Art des Ausschliessens bietet leider keine 100% Sicherheit, da die meisten Programme zum Sitedownload in der Lage sind sich zu tarnen, d.h. sie bieten die Option ihren USER_AGENT zu verändern.
</quote>
Freu Dich doch wenn viele Deine Seite so interessant finden, dass sie sie komplett haben wollen.
Um den Traffic zu reduzieren könntest Du ja auch Deine Inhalte selbst an prominenter Stelle gezipped zum Download anbieten.
Viele Grüße
lulu
Hallo Lulu,
Ich bin mit Dir einverstanden, dass es unzuverlaessig bis
untauglich ist, sich auf den Useragent-String zu verlassen.
Um den Traffic zu reduzieren könntest Du ja auch Deine Inhalte selbst an prominenter Stelle gezipped zum Download anbieten.
Er sprach von "bildlastig".
Wenn er es richtig macht, sind die Bilder schon komprimiert (JPEG/GIF).
Ein ZIP bringt dann _trafficmaessig_ kaum mehr was.
(Nur bei Text wie z.B. HTML oder Word-Docs kann man
durch Kompression sehr viel sparen...)
Aber _ein_ ZIP statt hunderte bis tausende Dateien
wuerde die Anzahl Anfragen reduzieren, und somit
AFAIK die Serverlast.
Gruesse,
Thomas
Hallo,
wer suchet der findet:
http://www.bananajoe.de/beispiele.html#7
=> </faq/#Q-19>
http://www.bananajoe.de/beispiele.html#7
Diese "Loesung" (mit Server-Konfiguration den "boesen"
Useragents eine 403 zu schicken) ist sehr unzuverlaessig.
Der Useragent-String laesst sich beliebig manipulieren.
Wenn jemand unbedingt Deine Seiten saugen will, dann
nimmt er einen Offline-Reader, der sich als MS IE 5.5
(oder sonst irgendein normaler Browser) tarnt.
Dagegen hast Du keine Chance.
Solche Loesungen (und auch die robots.txt) funktionieren
nur, solange anstaendige Offline-Reader von anstaendigen
Benutzern losgeschickt werden. Gegen die andern kannst
Du Dich wie gesagt kaum wehren, ohne grosse Nachteile
in Kauf zu nehmen.
---
Und wenn Du zu faul bist, um das Logfile an sich anzuschauen,
um der Sache auf den Grund zu gehen, ist das Dein Pech.
Mit dem UserAgent String und/oder der IP-Adresse wuerdest
Du hier (sowie mit einer Google/Google Groups Suche) bestimmt
bessere Antworten kriegen als bloss mit der Aussage:
"Ich habe mehr Traffic und vermute einen Offline-Reader dahinter."
Gruesse,
Thomas
habe d'ehre
Und wenn Du zu faul bist, um das Logfile an sich anzuschauen,
um der Sache auf den Grund zu gehen, ist das Dein Pech.
- Er hat ein Problem, welches er nicht haben will.
- Er fragte hoeflich nach, ob jemand eine Loesung fuer sein Problem kennt.
Es mag ja sein, dass die Loesung (wenn es denn eine gibt) noch andere nachteilige Nebenwirkung hat.
Aber ihm deshalb gleich Faulheit zu unterstellen und ihn anzumachen halte ich fuer unangemessen.
BTW: Ich weiss keine Loesung, sehe aber auch sein Problem nicht als wirkliches Problem.
carpe diem
Wilhelm
Hallo,
Aber ihm deshalb gleich Faulheit zu unterstellen und ihn anzumachen halte ich fuer unangemessen.
Meine Kritik bezog sich auf sein Posting weiter unten
im Thread: [pref:t=65976&m=375940] (17:08 h)
Dort sagt er, dass es sich mit den "bunten Statistiken"
zufrieden gibt, anstatt ins richtige Logfile zu gucken.
Das _ist_ in meinen Augen Faulheit.
Im Logfile faende er naemlich vielleicht Hinweise, die ihm
besser weiterhelfen koennten als all unsere Spekulationen
hier im Forum.
(Ohne Nennung eines Useragent-Strings oder einer IP-Adresse
kann man sowieso nur glaskugeln.)
Es gibt ja auch anstaendige Robots.
Und die hinterlassen verwertbare Spuren.
Z.B. den (nicht manipulierten) Useragent String.
Dort steht oft die URL einer Seite, wo man Infos ueber
den Robot findet, u.a. auch, wie man sich vor diesem
Robot schuetzen kann.
Solange Ingon nicht ins Logfile guckt, kommt
er an viele wesentliche Infos einfach nicht heran.
Gruesse,
Thomas
Hallo,
Kann ich etwas dagegen tun. Ich meine per Metatag, htaccess oder einem anderen Zaubertrick.
Ja, die gesamten Seitenstruktur auf Sessions aufbauen, ein Limit festlegen, und wenn das Limit erreicht ist, bekommt diese Session keine Daten mehr. Damit kannst Du den Traffic etwas einschränken, mehr aber nicht. Und mein Offline-Reader läuft übrigens aus Fairnessgründen über den Proxy meines Providers, da sind dann alle Zugriffe von einer IP-Gruppe und das von mehreren Leuten gleichzeitig.
Gruss, Thoralf