Die konkrete Implementation hängt natürlich davon ab, wie (einheitlich) die HTML-Dokumente aufgebaut sind und nach welchen Kriterien die Daten sich auf die verschiedenen Dateien verteilen. Wodurch sind diese HTML-Dateien denn erzeugt worden?
Oder poste doch mal eine anonymisierte Beispiel-Datei, wenn alle anderen homogen aufgebaut sind, kann man vieleicht eine Lösung ersinnen.