Encoder: Umgang mit HTML in Gästebucheinträgen

Beitrag lesen

Ja dass es wahrscheinlich nicht so viel kann wie gewünscht, das ist mir fast schon klar.

BBCode mit begrenztem Sprachumfang. Wenn du HTML verwenden möchtest, musst du eine ziemlich große Menge Missbrauchsmöglichkeiten kennen, erkennen und ausschließen.

Das mit dem Missbrauch ist mir bekannt. Der kommt später dran, sofern diese Idee überhaupt weiter verfolgt wird.
Mit BBCode hätte ich ja praktisch das selbe Problem, sobald dieser in HTML Tags übersetzt wird. Die Schwierigkeit ist herauszufinden, was nicht-getaggter Text ist und was nicht.

Es muss nicht alles komplett abdecken. Für den Anfang würde es schon reichen wenn Überschriften erkannt würden, es geht um was internes mit sehr begrenzten Anforderungen.
<img> darf ja innerhalb eines <p> vorkommen, das kann bleiben wie es ist.
Sonstige Spielereien wie Listen usw. sind erst mal nicht relevant.

Ich stelle mir den Ablauf so vor:

  • Suche < auf das (mit Leerzeichen) h1 folgt. (Oder h2)
  • die Position definiert den Plaintextblock bis vor die Klammer <
  • dieser wird, sofern nicht leer, mit <p> </p> umschlossen
  • dann wird alles ab dem < ausgegeben, bis zum Ende dieses Tags.
  • dann gehts wieder oben weiter, solange bis nichts mehr da ist.
    Ich würds nur gerne nicht zu primitiv mit Suche nach "<" und so weiter machen, sondern das was geht mit regex abbilden. Da fehlt mir leider die Praxis und Ahnung, was überhaupt alles geht.