lulu: Suche ein Tidy für "Arme"

Guten Morgen

ich bin auf der Suche nach einer Tidy-artigen Funktion oder Klasse.

Also etwas in das man wuseliges HtMl hineinsteckt und schönes sauberes, um unvollständige oder unsaubere Tags bereinigtes und ggf. sogar
repariertes HTML herausbekommt.

"Wenn Du Tidy willst nimm doch Tidy!" - geht hier leider nicht :-(

Ok, es reicht wenn es einige wenige Dinge kann.
Schön wären folgende Features

  • br und img Tags xHTML-konform machen
    -leere Tags entfernen, also etwas wie "<p></p>"
  • ggf. das obige sogar bei verschachtelten Konstruktionen wie z.B. "<div><p></p></div>"
  • fehlende schliessende Tags ergänzen
  • bei Blockelementen Tags ergänzen also z.B. aus "<p>foo<h1>bar</h1>foo</p>"
    "<p>foo</p><h1>bar</h1><p>foo</p>" machen
  • und 1001 weitere Wünsche ...

Kennt jemand etwas in der Art?
Wenn ja freue ich mich über Links und relevante Suchbegriffe.

Wie gesagt eine einfache Variante reicht, also ein Tidy für "Arme" ;-)

Viele Grüße

lulu

--
bythewaythewebsuxgoofflineandenjoytheday
  1. Ahoi lulu,

    -leere Tags entfernen, also etwas wie "<p></p>"

    • ggf. das obige sogar bei verschachtelten Konstruktionen wie z.B. "<div><p></p></div>"

    das eine sollte für das andere sorgen. wird das "<p></p>" gelöscht steht
    ja nurnoch das "<div></div>" da und wird auch gelöscht.

    Kennt jemand etwas in der Art?

    Noch nicht.

    Wie gesagt eine einfache Variante reicht, also ein Tidy für "Arme" ;-)

    nunja, ein annehmbares script könntest du dir sicher selber schreiben.
    Mit PHP versteht sich. denke an da einen arbeitsaufwand von 2-7 tagen.
    und halte es für nicht aufwendig, allerdings glaube ich kaum das dies
    ein durchlesen deinerseits erspart.

    MfG

    1. Huhu Daniel

      nunja, ein annehmbares script könntest du dir sicher selber schreiben.

      Muss ich dann wohl, so wie es aussieht.

      denke an da einen arbeitsaufwand von 2-7 tagen.
      und halte es für nicht aufwendig, ...

      Naja, wenn es halbwegs "schlau" werden soll kommt man wohl nicht herum einen
      richtigen Parser zu bauen dem man dann auch noch ein paar Grammatik-Regeln
      für schönes HTML beibringen muss. Das ist dann nicht mehr wirklich mit ein paar "regXpen" zu lösen.

      Tja, eigentlich eine interessante Aufgabe, im Moment wird die aber wohl liegenbleiben müssen.
      Ansonsten werde ich mir mal bei Gelegenheit die BB-Parser-Klasse von Christian Seiler angucken.
      Habe die Beschreibung nur mal überflogen, aber wenn ich mich richtig erinnere versucht die auch fehlende Tags zu ergänzen und fehlerhafte Verschachtelungen aufzudröseln etc.
      Also im Prinzip genau das gleiche.

      und halte es für nicht aufwendig, allerdings glaube ich kaum das dies
      ein durchlesen deinerseits erspart.

      Doch genau das soll es mir ersparen. Konkret geht es darum die gröbsten Fehler automatisch aufzuräumen, die dadurch entstehen das in einem Projekt
      Seiten mit HTML-Fragmenten aus verschiedenen Quellen zusammengeklebt werden.
      Z.B. "Templates mit HTML" + "Eingaben der Redakteure mit HTML" = "teilweise ungültiges HTML".

      Viele Grüße

      lulu

      --
      bythewaythewebsuxgoofflineandenjoytheday