Anja: Linux: Urlliste erstellen

Hi,

wie kann ich (unter Linux) am einfachsten eine Liste aller Unterseiten einer Domain erstellen, welche durch einen rekursiven Crawler, wie es mit wget möglich ist, erstellen?
Wget kann die Seite quasi spiegeln... für meinen Fall kann es die einzelnen Seiten (Kontents) im Cache lassen da mir bereits die Liste der URLs genügt...

Wünsch noch einen schönen Feiertag euch allen.

  1. gudn tach!

    wie kann ich (unter Linux) am einfachsten eine Liste aller Unterseiten einer Domain erstellen

    mit wget und grep.
    oder was meinst du?

    prost
    seth

  2. Hi,

    da Du die Seiten ohnehin parsen musst, bleibt Dir nichts anderes übrig, als sie auch zu laden. Die wget-Option --delete-after hilft aber, dass wget keine Datein übrig läßt - dann brauchst Du nur noch die Ausgabe von wget entsprechend mit sed oder grep zu parsen.

    Gruß, LX