Andreas Korthaus: wget funkitoniert nicht mit robots.txt?

Beitrag lesen

Hallo!

Nene, wget macht da alles richtig. Das ist ein Fehler in SELFHTML, es gibt kein 'Allow', wie
ich eben nachgelesen habe. Und das 'Disallow: /' verbietet die komplette Domain.

Ja, jetzt wo Du es esagst, hatte ich auch mal von gelesen, und finde auch überall nur disallow! Vielleicht sollte man das Archiv dann auf selfarchiv.teamone.de legen, vielleicht würde dadurch google etc. erheblich ergibiger, ich weiß, vieles steht bei google drin, aber vielleicht würde die Popularität durch indizierung in anderen Suchmaschinen... steigen?
Naja, aber das ist ja eher eine "kosmetische" Angelegenheit ;-)

Wget kann man übrigens so einstellen, dass es die robots.txt ignoriert, habe ich dann erfahren. Also funkioniert das ganze doch, nur hatte schon das "mini-Archiv" von 1998-3 mit den paar Posings(im Vergleich zu später) fast 5 MB. Vermutlich läge das mit gzip-encode erheblich niedriger, und das kann wget ebenfalls, wenn ich den entsprechenden Header manuell einfüge, wird gzip ausgeliefert, hat nur den Haken, das wget selbst das nicht verarbeiten kann so kann es natürlich keinen Links folgen, aber ich kann ja vorher per wget ohne den Header die index-Datei holen, und diese als input verwenden. Danach muß man halt ein Script drüberlaufen lassen welches die Dateien alle dekomprimiert. Naja, das geht schon alles, vieleicht probiere ich mal eine eigene Architektur in die Threads eines Archives zu bekommen, die ich so durchsuchen kann, wie ich mir das damals mit den FAQ bestehend aus Threads vorgestellt habe, mal schaun...

Grüße
Andreas