Sven Rautenberg: Autsch! (Abbildung von Dateinamen auf Parameter)

Beitrag lesen

Moin!

Er bekommt aber nur die Bilder der freigegebene Seiten. Und die bekommt er ja sowieso. Er kann nicht einfach das gesamte Bildverzeichnis lesen.

Das kann er ja sowieso nicht - das Bildverzeichnis lesen, meine ich.

Aber er kann eine neue Seite anfordern. Und kriegt dann wieder freigeschaltete Bilder.

Mal ernsthaft: Kein intelligenter Bildergrabber wird so blöde sein und nur aufgrund einer Datei, die _scheinbar_ durchnumeriert ist, diese Nummern durchprobieren. Er kann sich mit einiger Sicherheit drauf verlassen, dass die Bilder existieren und zugriffsfähig sind, welche auf den zugehörigen Webseiten verlinkt sind. Bilder, die nicht verlinkt sind, sieht man ja nicht. Also können die existieren (ob nun als simpler oder komplizierter Dateiname - egal), oder auch nicht.

Die Suche danach bedeutet jedenfalls viele 404 und wenig Erfolg - was beim Spidern und Grabben der HTML-Site genau umgekehrt ist.

Und wenn du einen derartig komplexen Mechanismus einbaust, dass man mit einer Automatik nicht mehr rankommt - dann bastelt sich der Grabber einen Cache-Explorer und holt die Bilder alle aus dem Browsercache. Ganz einfach. Mit dem Proxy WWWOFFLE sogar ganz einfach machbar, der kümmert sich nämlich nicht um Proxy-orientierte HTTP-Header - und im Zweifel fischt man die vorher raus.

- Sven Rautenberg

--
"Beim Stuff für's Web gibts kein Material, was sonst das Zeugs ist, aus dem die Sachen sind."
(fastix®, 13. Oktober 2003, 02:26 Uhr -> </archiv/2003/10/60137/#m338340>)