HTML mit REGEXP bereinigen von JürgenB, 24.01.2023 08:02

HTML mit REGEXP bereinigen

JürgenB Homepage des Autors 24.01.2023 08:02

html

Hallo,

ich habe mehrere große Tabellen in MS-Office. Der HTML-Export sieht so aus:

<td width=161 valign=top style='width:120.5pt;border-top:none;border-left:
  none;border-bottom:solid windowtext 1.0pt;border-right:solid windowtext 1.0pt;
  padding:0cm 5.4pt 0cm 5.4pt'>

Das td erstreckt sich über bis zu drei Zeilen. Jetzt möchte ich das in ein einfaches <td> umwandeln. Da notepad++ auch Reguläre Ausdrücke unterstützt, habe ich es mit

<td .*|\s>

versucht. Dieser Ausdruck findet aber nur die erste Zeile. Kann mir jemand verraten, wie ich alles zwischen <td und > finde, um es dann durch nichts zu ersetzen?

Oder kennt ihr einen "Cleaner", der bei einem HTML alle Attribute entfernt?

Gruß
Jürgen

Beitrag melden

– Informationen zu den Bewertungsregeln