Ich denke, du suchst einen xml-Parser.
Hm ich hoffe eigentlich da drum herum zu kommen.
Warum?
Wegen einer "so kleinen" Anforderung
Nach kurzem überlegen wirst du feststellen, dass es äußerst komplex ist einige einfache Verarbeitungsregeln von XML in einen PCRE zu fassen.
Außerdem ist mein zu durchsuchender Text nicht zwingend wohlgeformt, d.h. Parser hätten damit wohl keine so große Freude...
Dann ist es kein XHTML sondern Codemüll. Keine Große freude ist dann untertrieben: wenn der Code nicht wohlgeformt ist, wird sich der Paser weigern.
Es gibt aber auch parser, die Codemüll halbwegs ordentlich interpretieren: http://simplehtmldom.sourceforge.net/