Johnny: Forum-Archiv zum Download?

Hallo,

ich habe mir gerade das Forum heruntergeladen. Das Archiv wollte ich dann auch offline durchsuchen können und das geht nun nicht mehr, wie ich im Forum erfahren habe. Früher ging es allerdings?!

Ich habe leider keinen Link gefunden, wo ich die alten Archiv-Dateien herunterladen kann. Weiß jemand vielleicht eine Adresse?

Muchas Gracias
JOhnnY

  1. Hallo!

    ich habe mir gerade das Forum heruntergeladen. Das Archiv wollte ich dann auch offline durchsuchen können und das geht nun nicht mehr, wie ich im Forum erfahren habe. Früher ging es allerdings?!

    Ich habe leider keinen Link gefunden, wo ich die alten Archiv-Dateien herunterladen kann. Weiß jemand vielleicht eine Adresse?

    Das geht glaube ich nicht mehr, steht da zumindest so. Ich dachte jetzt das kann man ja einfach unter Linx z.B. mit

    wget -r http://forum.de.selfhtml.org/archiv/1998_3/

    machen, aber das funktioniert nicht! Wieso? Dasselbe mit einer kpl. Homepage geht ohne Probleme! Habe mir man wget inzwischen zig mal durchgelesen und verstehe es nicht! Es werden nur

    /robots.txt
    /archiv/1998_3/index.html

    runtergeladen, Ende. Kann mir das jemand erklären? Gerade dafür ist wget doch da! Gibts es eine Möglichkeit das irgendeine Weise komplett gz-encoded runterzuladen?

    Naja, vielleicht sollte ich doch mal langsam schlafen, hat ja keinen Sinn mehr ;-)

    Grüße
    Andreas

    1. Hallo!

      Habe das Problem gefunden, versteh es aber nicht. Das ganez liegt an der robots.txt:

      User-Agent: *
      Disallow: /
      Allow: /archiv/
      Allow: /faq/

      Ich habe das mal auf einem eigenen Server versucht, ohne robots.txt gehts prima, aber wenn ich eine entsprechende Robots.txt ins Hauptverzeichnis lege, wird nur noch die index.html und die robots.txt selbst runtergeladen, und nicht mehr die verknüpften Dateien.
      Kennt jemdand eine Lösung?

      Viele Grüße
      Andreas

      1. Hallo nochmal

        User-Agent: *
        Disallow: /

        ^^^^^^^^^^^   das Proble liegt in dieser Zeile.

        Allow: /archiv/
        Allow: /faq/

        ohne Disallow: / funktioniert es ebenfalls. wget scheint da nicht ganz korrekt zu interpretieren.

        Grüße
        Andreas

        1. Hallo,

          User-Agent: *
          Disallow: /
             ^^^^^^^^^^^   das Proble liegt in dieser Zeile.
          Allow: /archiv/
          Allow: /faq/

          ohne Disallow: / funktioniert es ebenfalls. wget scheint da nicht ganz korrekt zu
          interpretieren.

          Nene, wget macht da alles richtig. Das ist ein Fehler in SELFHTML, es gibt kein 'Allow', wie
          ich eben nachgelesen habe. Und das 'Disallow: /' verbietet die komplette Domain.

          Gruesse,
           CK

          1. Hallo!

            Nene, wget macht da alles richtig. Das ist ein Fehler in SELFHTML, es gibt kein 'Allow', wie
            ich eben nachgelesen habe. Und das 'Disallow: /' verbietet die komplette Domain.

            Ja, jetzt wo Du es esagst, hatte ich auch mal von gelesen, und finde auch überall nur disallow! Vielleicht sollte man das Archiv dann auf selfarchiv.teamone.de legen, vielleicht würde dadurch google etc. erheblich ergibiger, ich weiß, vieles steht bei google drin, aber vielleicht würde die Popularität durch indizierung in anderen Suchmaschinen... steigen?
            Naja, aber das ist ja eher eine "kosmetische" Angelegenheit ;-)

            Wget kann man übrigens so einstellen, dass es die robots.txt ignoriert, habe ich dann erfahren. Also funkioniert das ganze doch, nur hatte schon das "mini-Archiv" von 1998-3 mit den paar Posings(im Vergleich zu später) fast 5 MB. Vermutlich läge das mit gzip-encode erheblich niedriger, und das kann wget ebenfalls, wenn ich den entsprechenden Header manuell einfüge, wird gzip ausgeliefert, hat nur den Haken, das wget selbst das nicht verarbeiten kann so kann es natürlich keinen Links folgen, aber ich kann ja vorher per wget ohne den Header die index-Datei holen, und diese als input verwenden. Danach muß man halt ein Script drüberlaufen lassen welches die Dateien alle dekomprimiert. Naja, das geht schon alles, vieleicht probiere ich mal eine eigene Architektur in die Threads eines Archives zu bekommen, die ich so durchsuchen kann, wie ich mir das damals mit den FAQ bestehend aus Threads vorgestellt habe, mal schaun...

            Grüße
            Andreas