Hallo Walter,
der folgende Vorschlag ist ziemlich arbeitsreich (von Hand alle Dokumente einzeln bearbeiten), aber da bis jetzt noch nichts bessers da ist :-) :
Versuch mal, die Dateien als Textdateien in Word zu laden. Dann teste, ob Word hinter jeder Zeile einen Absatzumbruch einfuegt. Wenn ja, hast Du vielleicht Glueck.
Dann mit der Suchen und Ersetzen (erweitert!) Funktion von Word alle <br> Tags, die noch ein Leerzeichen vornedran haben (und einen Zeilenumbruch hintendran), durch eine ungewoehnlich Zeichenkette ersetzen,
z.B. 111111 oder so.
Das sieht dann ungefaehr so aus: search: " <br>^p", replace 11111
Das mit allen Dokumenten (viel Spass). Danach mit dem Editor von Uli Meybohm, http://www.meybohm.de/htmledit/index.html (der kann dateiuebergreifendes Ersetzen) alle noch verbleibenden <br> Tags (die dann mal <pre>-tags waren, durch eben diese <pre> tags ersetzen lassen.
Ich weiss allerdings nicht, ob der Phase5 500 Dateien auf einmal schafft, aber das kannst Du dann ja ausprobieren.
Im letzten Schritt alle "111111" wieder durch den Phase5 rausschmeissen lassen (Achtung, durch ein Leerzeichen ersetzen, sonst stehen die Woerter u.U. aneinander).
Das sollte funktionieren (hoffe ich). Probiere es halt erst mal mit ein paar Dokumenten aus.
Heute:
<body blabla="#blabla">
<b>4.2 Das ist die Überschrift der zweiten Ebene</b> <br>
<br>
Text über bla und sonstiges. Früher ist am Ende jeder Zeile einfach kein Tag für einen Umbruch <br>
gestanden und die Seite wurde durch das <pre>-formated an den entsprechenden Stellen <br>
umgebrochen <br>
<br>
<kotz>So entstanden dann die verschiedenen Absätze, das ist zwar nicht schön (aber selten), <br>
aber in Anbetracht an ca. 6000 Dokumente war das die schnellste Lösung</kotz><br>
Zum generellen Reparieren empfehle ich Dir tidy, http://www.w3.org/People/Raggett/tidy/
aber erst nach dem Ersetzen.
Hoffe, das hilft.
Gruss
Thomas