Götz: regular expressions

Beitrag lesen

Hallo EisFuX!

Leider hat sich nun das "Ausfiltern" der Nutzinformationen aus dem HTML-Wirrwarr als Problem herausgestellt. Die einzelnen Zitate sind nämlich nicht immer exakt gleich aufgebaut. Ich habe mal die vier möglichen Varianten aufgeführt:

[...]

Zitattext.<br />
  <i class="author">Autor</i><br /><br />

<!--kommentar-->
  Zitattext.<br />
  <i class="author">Autor</i><br />

Zitattext.<br />
  <i class="author">Autor</i><br /><br />
  <small>(Anmerkungstext)</small><br /><br />

<!--kommentar-->
  Zitattext.<br />
  <i class="author">Autor</i><br /><br />
  <small>(Anmerkungstext)</small><br /><br />

Das einzige Muster bzgl. "Zitattext", das ich hier sehe wäre die ein/zwei oder drei Zeilen vor <i class="author"> zu nehmen.
Einen anderen Anhaltspunkt hast Du ja leider nicht.

Die Zitate, die mit <!--kommentar--> beginnen sollten ja auch kein größeres Problem darstellen.
Zieh doch erstmal die raus. Dann wird Deine Zitatdatei vermutlich schon um einiges kleiner.
Danach kannst Du ja schauen, wie Du die restlichen rausfiltern kannst.

MfG
Götz

--
Losung für Sonntag, 28. November 2004
Die Israeliten sprachen zum Herrn: Wir haben gesündigt, mache du es mit uns, wie dir's gefällt; nur errette uns heute! (Richter 10,15)
Der Engel sprach zu Maria: Siehe, du wirst schwanger werden und einen Sohn gebären, und du sollst ihm den Namen Jesus geben. Der wird groß sein und Sohn des Höchsten genannt werden; und Gott der Herr wird ihm den Thron seines Vaters David geben. (Lukas 1,30-32)
(Losungslink)