Buddelflinktier: merkwürdige Zeichen zwischen HTTP-Header und Content

Hallo,

wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

Serverantwort:

  
HTTP/1.1 200 OK  
Date: Fri, 06 Jan 2012 13:59:37 GMT  
Server: Apache  
Expires: Fri, 06 Jan 2012 14:04:37 GMT  
Etag: W/"87e2e7af1764565f4248758f728e703e"  
Cache-control: max-age=300  
Vary: Accept-Encoding,User-Agent  
X-Powered-By: Perl http://www.perl.org/  
Connection: close  
Transfer-Encoding: chunked  
Content-Type: text/html; charset=utf-8  
  
11f42  
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">  
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:og="http://ogp.me/ns#" xml:lang="de">  
...  

Am Ende steht dann noch

  
...  
</body>  
</html>  
<!-- Created with InterRed V12.0-x.x.x.x, http://www.interred.de/, by InterRed GmbH -->  
<!-- BID: 16, iBID: 721625, CID: 20, iCID: 1357206 -->  
<!-- Link: $(LB16:Linktext)$ $(LC20:Linktext)$ -->  
<!-- Generiert: 2012-01-06 10:42:15 -->  
  
  
0  

Was bedeutet dabei "11f42" und am Ende "0"?
Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.

Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

VG
Andreas

  1. Hi,

    wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

    auf welche Weise - exakt! - erfolgt dieser Aufruf?

    Was bedeutet dabei "11f42" und am Ende "0"?

    Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.

    Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

    Hier wären Details bzw. Programmcode sinnvoll.

    Cheatah

    --
    X-Self-Code: sh:( fo:} ch:~ rl:| br:> n4:& ie:% mo:) va:) de:] zu:) fl:{ ss:) ls:~ js:|
    X-Self-Code-Url: http://emmanuel.dammerer.at/selfcode.html
    X-Will-Answer-Email: No
    X-Please-Search-Archive-First: Absolutely Yes
    1. Hi

      Hi,

      wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

      auf welche Weise - exakt! - erfolgt dieser Aufruf?

      telnet www.heise.de 80
      Trying 193.99.144.85...
      Connected to www.heise.de.
      Escape character is '^]'.
      GET / HTTP/1.1
      Host: www.heise.de

      HTTP/1.1 200 OK
      Date: Fri, 06 Jan 2012 15:29:37 GMT
      Server: Apache
      Expires: Fri, 06 Jan 2012 16:04:37 GMT
      Etag: W/"87e2e7af1764565f4248758f728e703e"
      Cache-control: max-age=300
      Vary: Accept-Encoding,User-Agent
      X-Powered-By: Perl http://www.perl.org/
      Connection: close
      Transfer-Encoding: chunked
      Content-Type: text/html; charset=utf-8

      11dc0
      <!DOCTYPE ...

      Auf mehreren Linux-Servern (Debian) erhalte ich identische Ergebnisse mit beschriebenem Problem.

      Was bedeutet dabei "11f42" und am Ende "0"?

      Zunächst einmal, dass Deine Ausgabe um "11f42" und "0" angereichert wird. Ich beispielsweise habe das nicht.

      Erscheint auch nur, wenn der exakte Response betrachtet wird. Gängige Browser "optimieren" das raus. Das Problem betrifft auch nicht alle Websites. Dieser Sniffer http://www.rexswain.com/httpview.html reproduziert das Problem.

      Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

      Hier wären Details bzw. Programmcode sinnvoll.

      C++, ist aber eigenlich nicht relevant. Dort ist mir das erst aufgefallen, dachte erst es liegt an meinem Quellcode, aber den Fehler konnte ich anderweitig reproduzieren.

      Cheatah

      Andreas

      1. Tach,

        GET / HTTP/1.1

        das ist wie Vinzenz verlinkt der Auslöser, ein HTTP-1.0-Client ist einfach zu implementieren oder per telnet nachgespielt, bei HTTP 1.1 sieht das schon anders aus.

        mfg
        Woodfighter

  2. Hallo,

    wenn ich mittels Telnet unter Verwendung von HTTP zB www.heise.de aufrufe, erhalte ich die Raw-Ausgabe.

    [...]

    Transfer-Encoding: chunked

    aha!

    Content-Type: text/html; charset=utf-8

    11f42

    ist doch klar: chunk-size.
    gefolgt vom chunk-body

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML+RDFa 1.0//EN" "http://www.w3.org/MarkUp/DTD/xhtml-rdfa-1.dtd">

    [...]

    0

    last-chunk

    [/code]

    Was bedeutet dabei "11f42" und am Ende "0"?
    Schaue ich mir den Quellcode in div. Browsern an, fehlen diese Parts, ebenso bei curl und wget. Bei einigen Sniffern sind sie vorhanden. In der RFC 2616 und auch beim W3C finde ich keine Infos.

    http://www.w3.org/Protocols/rfc2616/rfc2616-sec3.html#sec3.6.1

    Freundliche Grüße

    Vinzenz

  3. Ich entwickle derzeit ein Tool zum Abholen von Websites und habe nun das Problem wo das Dokument anfängt und aufhört.

    use wget

    Das gibt es unter der GPL auch im Quelltext...