Hallo Michael,
da ein gutes Markup die Bedeutung der einzelnen Seitenteile ausdrücken soll, ist eine stumpfe Behandlung per Regex eher nicht zielführend.
Ohne ein Verständnis des Seiteninhalts kannst du kein besseres HTML erzeugen. AI Tools können vielleicht einen ersten Aufschlag liefern, ich bezweifle aber, dass die aktuellen LLMs genug Kontext haben, um gutes HTML erschaffen zu können.
Auf dein div Beispiel sind schon andere eingegangen, dazu habe ich erstmal nichts zu ergänzen.
Rolf
--
sumpsi - posui - obstruxi
sumpsi - posui - obstruxi