ich: Suche Tool zum aufräumen von Webprojekten

Hallo.

Gibt es ein Freeware oder Opensource-tool zum löschen nicht verlinkter Dateien?

Also: starte mit irgendwas.htm und verfolge alle links/bilder/etc und lösche alles andere, was nicht verlinkt ist - außer .ht*, robots.txt, etc...

Ich will mal die ganzen Leichen, die sich im lauf der Jahre angesammelt haben, entsorgen. Als das, was typischer weise dann entsteht, wenn jemand eine neue Webseite baut und das einfach so in eine bestehende Seite rein kopiert ohne die alten und unnötigen Klamotten zu killen.

Gruß
ich

  1. Gibt es ein Freeware oder Opensource-tool zum löschen nicht verlinkter Dateien?

    vermutlich

    Also: starte mit irgendwas.htm und verfolge alle links/bilder/etc und lösche alles andere, was nicht verlinkt ist - außer .ht*, robots.txt, etc...

    und wie weisst du, ob diese ressourcen nicht von anderen seiten verlinkt werden?

    Als das, was typischer weise dann entsteht, wenn jemand eine neue Webseite baut und das einfach so in eine bestehende Seite rein kopiert ohne die alten und unnötigen Klamotten zu killen.

    zeugt von schlecht durchdachter entwicklung

    prinzipielles vorgehen

    hole dir einen verzeichnisindex all deiner dateien
    prüfe mit einem linkchecker auf tote verweise (xenu) zb
    vergleiche die daten mit einer dateiliste lt. access-log des server, damit du keine dateien löscht, zwar auf deiner seite nicht verlinkt sind, aber dennoch aufgerufen werde

    und nicht vergessen: Cool URIs don't change

    1. zeugt von schlecht durchdachter entwicklung

      Hab' ich auch schon bemerkt :)
      aber sowas passiert wenn Frima A die ursprüngliche Seite erstellt hat, Firma B und C Ihr zeug darüber kopiert haben. Und jetzt stehe ich vor den gesammelten Werken von geschätzt 10 Jahren, wobei aber alle Dateien Datum/Zeit von März diesen Jahres haben.

      hole dir einen verzeichnisindex all deiner dateien
      prüfe mit einem linkchecker auf tote verweise (xenu) zb

      Schau ich mir mal an, thx

      vergleiche die daten mit einer dateiliste lt. access-log des server, damit du keine dateien löscht, zwar auf deiner seite nicht verlinkt sind, aber dennoch aufgerufen werde

      Ich räume hier auf bevor ich mit den Änderungen der Seiten anfange - nicht hinterher :) Soll ja diesmal nicht überbügelt werden, sondern nur erneuert.

      Und solche Seiten sollte es nicht geben den: "...index, nofollow..." auf der aller ersten Seite (nicht mehr lange). Zum anderen: es gibt ja auch selbstgebaute seiten für 404 und dergleichen und der wirklich alte Kram soll auch ersatzlos raus...

  2. Hallo

    ich hab gerade eine Idee, die klingt ziemlich besch...ert - dann muss
    sie ja gut sein ;)

    Klappt natürlich nur sofern es hier um einen statischen Auftritt geht ...

    • den Inhalt des Webverzeichnis bis auf die index.html in ein Verzeichnis XYZ verschieben
    • als ErrorDocument für 404 ein Skript definieren
    • das Skript guckt ob es die angeforderte Resource in XYZ findet.
        Falls ja wird sie in das Webverzeichnis zurückkopiert, in XYZ gelöscht und direkt mit Status 200 ausgeliefert, falls nicht Status 404
    • dann einen Crawler z.B: wget über die Seite laufen lassen

    Dann solltest Du eine halbwegs vollständige Version haben, vermutlich muss da aber noch einiges per Hand nachgebessert werden.
    Also den Bodensatz in XYZ nochmal durchgucken.

    Viele Grüße

    Stefan

    --
    bythewaythewebsuxgoofflineandenjoytheday