adam44: Apache, Inhalte werden nicht korrekt ausgeliefert

Hallo zusammen,

Frage zu Apache und Auslieferung von HTML Inhalten und Bilddateien.

In der log Datei tauche ziemlich oft folgende Einträge auf:

[Mon Nov 14 14:28:17 2016] [error] [client 111.222.333.444] File does not exist: /var/www/die_domain/html/imgs/4/fawee4wds32.jpg

Was meine ich mit ziemlich oft. Also die gestrige log Datei hat 12.969 Einträge, davon sind File does not exist: … sind 4027, also doch einige!

Das Verzeichnis zu der Datei ist vorhanden /var/www/die_domain/html/imgs/4/, die Datei an sich aber nicht.

Meine Frage.
Kann man Apache dazu bewegen, mehr Infos über die gerade ausgelieferte Daten in die Log-Datei zu schreiben zu bewegen?
Falls ja, wie?
Ist das eventuelle ein Cache Problem?
Damit meine ich, den Borwser-Cache der User, Browser-Cache hat noch alte Einträge?

apache2 -version
Server version: Apache/2.2.22 (Debian)
Server built:   Jul 20 2016 05:07:11

Debian Version:

No LSB modules are available.
Distributor ID: Debian
Description:    Debian GNU/Linux 7.11 (wheezy)
Release:        7.11
Codename:       wheezy

Grüße
adam44

  1. Hallo,

    In der log Datei tauche ziemlich oft folgende Einträge auf:

    [Mon Nov 14 14:28:17 2016] [error] [client 111.222.333.444] File does not exist: /var/www/die_domain/html/imgs/4/fawee4wds32.jpg
    

    das heißt, irgendein Client fordert ein Bild an, das es nicht gibt.

    Was meine ich mit ziemlich oft.
    Also die gestrige log Datei hat 12.969 Einträge, davon sind File does not exist: … sind 4027, also doch einige!

    Definitiv, ja. Ungefähr jeder dritte Request.

    Das Verzeichnis zu der Datei ist vorhanden /var/www/die_domain/html/imgs/4/, die Datei an sich aber nicht.

    Meine Frage.
    Kann man Apache dazu bewegen, mehr Infos über die gerade ausgelieferte Daten in die Log-Datei zu schreiben zu bewegen?
    Falls ja, wie?

    Was willst du denn konkret noch wissen? Jemand wollte ein Bild haben, das nicht existiert. Und?

    Ist das eventuelle ein Cache Problem?
    Damit meine ich, den Borwser-Cache der User, Browser-Cache hat noch alte Einträge?

    Wohl kaum. Wenn ein Browser eine Ressource noch im Cache hat, fordert er sie ja eben nicht neu vom Server an. Oder meinst du, eine alte Version des HTML-Dokuments, das Verweise auf Bilder enthält, die in der Zwischenzeit gelöscht wurden? Dann wäre die Frage, warum sich der Datenbestand so schnell ändert.

    So long,
     Martin

    --
    Es gibt eine Theorie, die besagt, dass das Universum augenblicklich durch etwas noch Komplizierteres und Verrücktes ersetzt wird, sobald jemand herausfindet, wie es wirklich funktioniert. Es gibt eine weitere Theorie, derzufolge das bereits geschehen ist.
    - (frei übersetzt nach Douglas Adams)
    1. Hallo,

      [Mon Nov 14 14:28:17 2016] [error] [client 111.222.333.444] File does not exist: /var/www/die_domain/html/imgs/4/fawee4wds32.jpg

      Im apache log steht doch nur der Pfad vom root der Webseite, nicht vom root des Servers. Ist das jpg im html falsch verlinkt?
      /var/www/die_domain/html/imgs/4/fawee4wds32.jpg
      statt
      imgs/4/fawee4wds32.jpg

      Fred

      --
      " " (Douglas Fairbanks Senior)
      1. Im apache log steht doch nur der Pfad vom root der Webseite, nicht vom root des Servers.

        • Im access_log - relativ zum Dokument-Root.
        • In error_log - wie gezeigt der komplette Dateisystempfad

        Allerdings stehen bei mir auch keine 404er im error_log. Das hat mit dem loglevel zu tun.

        1. Moin,

          • Im access_log - relativ zum Dokument-Root.
          • In error_log - wie gezeigt der komplette Dateisystempfad

          Allerdings stehen bei mir auch keine 404er im error_log. Das hat mit dem loglevel zu tun.

          jau stimmt, ich habe den 404 auch im access.log

          Fred

          --
          " " (Douglas Fairbanks Senior)
      2. Hallo,

        Ist das jpg im html falsch verlinkt?

        Nein, es steht nur der Pfad zu der Bilddatei mit Datum, Uhrzeit und der Serverip.

  2. Mal ganz dumm gefragt: hast du denn Content, der dieses Bild referenziert? Oder hattest du den mal? Wenn ja - hast du die entsprechende Seite mal genauer unter die Lupe genommen?

    Wenn nein: wenn es keine besseren Tools gibt, könntest Du via .htaccess den Zugriff auf ein PHP Script umleiten und dir anschauen was da so an Headern mitkommt.

    Rolf

    1. Hallo Rolf,

      Mal ganz dumm gefragt: hast du denn Content, der dieses Bild referenziert?

      In der Log-Datei ist kein Eintrag einer HTML-Date, nur der Pfad zum Bild mit Datum, Uhrzeit und der IP.

  3. [Mon Nov 14 14:28:17 2016] [error] [client 111.222.333.444] File does not exist: /var/www/die_domain/html/imgs/4/fawee4wds32.jpg
    
    1. Du kannst im Access-Log nachsehen wer, ggf. mit welchem Referer die URL abgerufen hat. Ist es eine Deiner Webseiten? Dann musst Du da ran...
    2. Prinzipiell kannst Du das Logformat für das Error-Log ändern, aber dann müsstest Du eventuell auch Regeln für fail2ban oder Einstellungen für weitere Software ändern. Das ist für Anfänger zu schwierig und Du willst nicht behaupten, kein solcher zu sein.
    3. Vermutlich wird es eine Suchmaschine gewesen sein. Falls das eine Grafik ist, die häufig wechselt UND/ODER Du KEIN Interesse daran hast, dass die Grafiken aus diesem Ordner bei Suchmaschinen gelistet werden:

    Lege eine Datei robots.txt im Root-Verzeichnis an:

    # file: /var/www/die_domain/html/robots.txt
    # robots.txt für die_domain
    
    User-agent: *
    Disallow: /imgs/
    

    Stelle sicher, dass diese Datei für jedermann abrufbar ist. (https[s]://die_domain/robots.txt) Dann hört das bald auf. Anderes nicht.


    Feiertage - beta ist bei 0.7

    1. Du kannst im Access-Log nachsehen wer, ggf. mit welchem Referer die URL abgerufen hat. Ist es eine Deiner Webseiten? Dann musst Du da ran...

      Es ist unterschiedlich, manchmal kommt

      111.222.333.999 11.222.333.444 - - [15/Nov/2016:07:09:06 +0100] "GET /imgs/4/fawee4wds32.jpg HTTP/1.1" 404 8608 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
      

      manchmal andre.

      Prinzipiell kannst Du das Logformat für das Error-Log ändern, aber dann müsstest Du eventuell auch Regeln für fail2ban oder Einstellungen für weitere Software ändern. Das ist für Anfänger zu schwierig und Du willst nicht behaupten, kein solcher zu sein.

      Habe etwas nach geforscht, das könnte für uns eventuell später in Frage kommen.

      Vermutlich wird es eine Suchmaschine gewesen sein. Falls das eine Grafik ist, die häufig wechselt UND/ODER Du KEIN Interesse daran hast, dass die Grafiken aus diesem Ordner bei Suchmaschinen gelistet werden:

      Eigentlich wechseln die Grafiken nicht so häufig, vielleicht ein oder zwei Mal pro Tag.
      Das ist das regelhafte an dieser Stelle!
      Wich ich oben beschrieben habe, das war in etwa 1/3, also ca 4000 der Error-Log Datei Einträge. Vorerst richte ich den in der robots.txt den Disallow: /imgs/ ein.

      1. Hallo,

        111.222.333.999 11.222.333.444 - - [15/Nov/2016:07:09:06 +0100] "GET /imgs/4/fawee4wds32.jpg HTTP/1.1" 404 8608 "-" "facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php)"
        

        da hast du ja zumindest einen Übeltäter schon entlarvt: Den Bot von facebook.

        Eigentlich wechseln die Grafiken nicht so häufig, vielleicht ein oder zwei Mal pro Tag.

        Meinst du die Grafiken auf deinem Webspace? Oder die erfolglos angeforderten?

        Vorerst richte ich den in der robots.txt den Disallow: /imgs/ ein.

        Keine Ahnung, ob sich der facebook-Bot dran hält, aber einen Versuch ist es allemal wert.

        So long,
         Martin

        --
        Es gibt eine Theorie, die besagt, dass das Universum augenblicklich durch etwas noch Komplizierteres und Verrücktes ersetzt wird, sobald jemand herausfindet, wie es wirklich funktioniert. Es gibt eine weitere Theorie, derzufolge das bereits geschehen ist.
        - (frei übersetzt nach Douglas Adams)
        1. Eigentlich wechseln die Grafiken nicht so häufig, vielleicht ein oder zwei Mal pro Tag.

          Meinst du die Grafiken auf deinem Webspace? Oder die erfolglos angeforderten?

          Meine die Grafiken auf dem Webspace.

          1. Hallo,

            Eigentlich wechseln die Grafiken nicht so häufig, vielleicht ein oder zwei Mal pro Tag.

            Meinst du die Grafiken auf deinem Webspace? Oder die erfolglos angeforderten?

            Meine die Grafiken auf dem Webspace.

            dann wundern mich die vielen Fehlzugriffe nicht mehr. Wenn also jemand gestern ein Bild bei dir gesehen hat, das ein paar facebook-Freunden mitteilt, und die wollen sich das heute anschauen, dann haben sie Pech.
            Und der facebook-Bot, der extern referenzierte Ressourcen routinemäßig checkt, findet nach ein paar Stunden auch nichts mehr.

            So long,
             Martin

            --
            Es gibt eine Theorie, die besagt, dass das Universum augenblicklich durch etwas noch Komplizierteres und Verrücktes ersetzt wird, sobald jemand herausfindet, wie es wirklich funktioniert. Es gibt eine weitere Theorie, derzufolge das bereits geschehen ist.
            - (frei übersetzt nach Douglas Adams)