Peter Schaich: Tool zum Aufspüren unverlinkter Dateien über FTP

Hallo Gemeinde,

ich wollte mal fragen, ob jemand eine Software kennt, die über FTP von zuhause aus auf einen Webspace zugreifen kann (natürlich mit Zugangsberechtigung) und feststellen kann, ob es da Dateien gibt, die inzwischen nicht mehr verlinkt sind. Sie müsste natürlich aus allen HTML-Dateien eine Liste erstellen, was verlinkt ist, und diese mit den vorhandenen Dateien vergleichen.

Der Sinn ist, Webspace zu sparen, der sich durch Schlamperei im Laufe der Jahre angesammelt hat; besonders wenn eine Site von mehreren administriert wird...

Notfalls könnte man natürlich auf alles auf lokal ziehen und das ganze dann offline machen.

Peter

  1. Hallo Peter,

    ich wollte mal fragen, ob jemand eine Software kennt, die über FTP von zuhause aus auf einen Webspace zugreifen kann (natürlich mit Zugangsberechtigung) und feststellen kann, ob es da Dateien gibt, die inzwischen nicht mehr verlinkt sind.

    Probiere (unter Win) mal "Xenu's Link Sleuth" http://home.snafu.de/tilman/xenulink.html.

    MfG, Thomas

    1. Hallo Thomas,

      Probiere (unter Win) mal "Xenu's Link Sleuth" http://home.snafu.de/tilman/xenulink.html.

      ich denke, ich habe mich etwas missverständlich ausgedrückt. Ich suche nicht mehr nach broken links (das habe ich mit Link Sleuth bereits erledigt). Ich suche nach nutzlosen Dateien, auf die kein Link mehr zeigt, die aber trotzdem noch da sind.

      Trotzdem danke.

      Peter

      1. Tach auch,

        ich denke, ich habe mich etwas missverständlich ausgedrückt. Ich suche nicht mehr nach broken links (das habe ich mit Link Sleuth bereits erledigt). Ich suche nach nutzlosen Dateien, auf die kein Link mehr zeigt, die aber trotzdem noch da sind.

        Mit einem direkten Programmtip kann ich Dir nicht helfen, aber vielleicht kannst Du ja in dieser Liste etwas finden:

        http://dmoz.org/Computers/Software/Internet/Site_Management/Link_Management/

        Da stehen auch Beschreibungen wie "Remove orphan files" oder "Find bad links or unused pictures or pages on a site", vielleicht findest Du ja was passendes.

        Gruss,
        Armin

        1. http://dmoz.org/Computers/Software/Internet/Site_Management/Link_Management/

          Danke. Das war's was ich suchte.

          Ich seh' schon, dass mir das zu teuer ist ($200, das andere gibt's noch gar nicht, den "HTML Explorer" gibt's nicht mehr auf der Website - FvG?)
          Ist aber schon erstaunlich, was da alles geboten wird.

          Peter

          1. Ich seh' schon, dass mir das zu teuer ist ($200, das andere gibt's noch gar nicht, den "HTML Explorer" gibt's nicht mehr auf der Website - FvG?)
            Ist aber schon erstaunlich, was da alles geboten wird.

            Bleibt also nur Handarbeit... :)

            Schnapp dir doch einen dieser Website-Sauger, hol dir die komplette Site damit auf die Platte, hol sie dir nochmal mit FTP auf Platte, und vergleiche die Verzeichnisinhalte. Dafür gibts bestimmt auch Tools, die Verzeichnisse vergleichen. Notfalls mit DIR > dir1.txt in eine Textdatei packen und mit FC vergleichen.

            Oder du programmierst dir was - dürfte aber aufwendiger werden, als du dir spontan vorstellst.

            Das Problem ist ja: Woran erkennt man, daß eine Datei nicht mehr benötogt wird?

            Wenn kein einziger Link auf sie zeigt? Bei Grafiken ist der Fall dann klar. Aber bei HTML-Seiten? Kann ja sein, daß es z.B. zusätzliche Framesets sind, die den Link auf Unterseiten erleichtern - dann werden die von der gesamten Seite nicht verlinkt, sondern nur von außerhalb. Löschen wäre in so einem Fall fatal.

            Die interessantere Lösung wäre also eigentlich, die Logfiles durchzusehen. Alles, was der Webserver ausgeliefert hat, wird gebraucht. Und natürlich alles, was von ausgelieferten Seiten aus verlinkt ist. Wenn einigermaßen viel Traffic auf der Seite ist, und die Leute nicht nur einen Bereich stürmen, sondern sich gleichmäßiger verteilen, dann kriegt man so einen einigermaßen korrekten Überblick.

            Aber die Sache ist trotzdem diffizil. Ich würde persönlich keine Maschine dransetzen und auf der Website ohne Backup und anschließender ständiger 404-Kontrolle vermeintlich unnötige Files löschen.

            Vermutlich genau wegen dieser Einstellung sammelt sich auf Webservern soviel Müll an. ;)

            - Sven Rautenberg

      2. Hi Peter

        Ich suche nicht mehr nach broken links (das habe ich mit Link Sleuth
        bereits erledigt). Ich suche nach nutzlosen Dateien, auf die kein
        Link mehr zeigt, die aber trotzdem noch da sind.

        Wenn Du
        a) eine Linkliste Deiner Site hast (das kann Xenu) und
        b) eine Liste aller Dateien Deines Dokumentbaums (dafür kannst Du ein
           relativ einfaches Skript schreiben, oder "find" nehmen, oder ...)
        und dann ein 'diff' auf beides anwendest, findest Du alle Orphans.

        Ein Skript vom Typ b) habe ich mir mal geschrieben
            (http://www.schroepl.net/_tools/files/)

        • das ist relativ einfach. (Mail mich an, wenn Du den Perl-Quelltext
          haben willst.)
          Du müßtest Deine Ausgabe bloß 'Xenu-kompatibel' machen, beide Dateien
          im Editor sortieren und dann vergleichen lassen.

        Viele Grüße
              Michael