HTML-Tags entfernen mittels RegExp? von Joerg Peschke, 09.07.2004 13:01

HTML-Tags entfernen mittels RegExp?

Joerg Peschke 09.07.2004 13:01

perl

Hallo RexExper,
Ich weiss, das Thema ist so alt wie die Welt, aber meine Recherche in diversen Foren hat noch keine zufriedenstellende Lösung geliefert. Deswegen:

Ich bräuchte einen RexExp, der mir aus HTML-Quelltext die Tags entfernt (quasi eine Art HTML->Plaintext-Konverter).

Mein bisheriges Vorgehen
$html_text =~ s/<[^>]*>/gs;

klappt meistens, geht aber natürlich vor den Baum, wenn ich > in Attributen stehen habe:
<img = "foo" alt="bar>">blubb

liefert

">blubb
von der Problematik von maskierten > mal ganz abgesehen.

Frage: Kriegt man das mit RegExp halbwegs sauber hin? Oder muss ich doch wieder HTML::Parser den weiten Weg von CPAN her kommen lassen?

Gruesse,

Jörg

Beitrag melden

– Informationen zu den Bewertungsregeln

HTML-Tags entfernen mittels RegExp?
Rolf Rost Homepage des Autors 09.07.2004 13:12

perl
– Informationen zu den Bewertungsregeln
Mahlzeit

aguck:
http://cpan.uwinnipeg.ca/dist/web

Gruss, Rolf

--
KnowHow veröffentlichen statt patentieren!
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. HTML-Tags entfernen mittels RegExp?
  
  Jörg Peschke 09.07.2004 13:27
  
  perl
  – Informationen zu den Bewertungsregeln
  Mahlzeit
  
  aguck:
  http://cpan.uwinnipeg.ca/dist/web
  
  Gruss, Rolf
  
  Hmm, also reingeguckt in die RemoveHTML, stelle ich fest, ist das nichts anderes als das, was ich gemacht habe:
  
  $htmltext =~ s/<([^>]|\n)*>//ig;
  
  meins war
  
  $htmltext =~ s/<[^>]*>//gis;
  
  Das Problem mit >-Zeichen in Attributen hab ich damit aber immer noch.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. HTML-Tags entfernen mittels RegExp?
    
    Raik 09.07.2004 14:04
    
    perl
    
    – Informationen zu den Bewertungsregeln
    Hallo, programmiergott Peschke!
    
    tscha, mit php wär das nicht passiert ;-)
    http://www.php-manual.de/de/function.strip-tags.php
    
    freundl. Grüsse aus Berlin, Raik
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. HTML-Tags entfernen mittels RegExp?
      
      Mathias Bigge Homepage des Autors 09.07.2004 14:10
      
      perl
      
      – Informationen zu den Bewertungsregeln
      
      Hi Raik,
      
      tscha, mit php wär das nicht passiert ;-)
      http://www.php-manual.de/de/function.strip-tags.php
      
      Ist halt ne Profi-Sprache[TM]...
      
      Viellleicht wäre auch
      http://aktuell.de.selfhtml.org/tippstricks/cgiperl/html-in-html/index.htm
      ein Tipp.
      
      Viele Grüße
      Mathias Bigge
      
      --
      http://aktuell.de.selfhtml.org/tippstricks/index.htm
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. HTML-Tags entfernen mittels RegExp?
        
        Joerg Peschke 09.07.2004 14:27
        
        perl
        
        – Informationen zu den Bewertungsregeln
        
        Tach,
        
        Ist halt ne Profi-Sprache[TM]...
        
        Meinst Du Perl oder PHP oder keins von beiden? :)
        
        Viellleicht wäre auch
        http://aktuell.de.selfhtml.org/tippstricks/cgiperl/html-in-html/index.htm
        ein Tipp.
        
        Das koennte in der Tat klappen, dass ich >-Zeichen in Attributen einfach maskiere. Danke für den Tip!
        
        Gruesse,
        Joerg
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
    2. HTML-Tags entfernen mittels RegExp?
      
      Joerg Peschke 09.07.2004 14:25
      
      perl
      
      – Informationen zu den Bewertungsregeln
      
      Hallo, programmiergott Peschke!
      
      tscha, mit php wär das nicht passiert ;-)
      http://www.php-manual.de/de/function.strip-tags.php
      
      freundl. Grüsse aus Berlin, Raik
      
      Knapp 5000 Zeilen Quellcode von Perl nach PHP konvertieren werde ich mir wegen ein paar >-Zeichen dann doch nicht antun...das wäre ja PERLen vor die Säue werfen :)
      
      Gruesse,
      Joerg
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
HTML-Tags entfernen mittels RegExp?
Beat 09.07.2004 15:12

perl
– Informationen zu den Bewertungsregeln
hy Jörg

Folgender Code ist von Tom Christianson und entfernt HTML Tags (verschachtelte über mehrere Zeilen)
sowie SSI Tags

$body =~ s{ <! (.*?) ( -- .*? -- \s* )+ (.*?) > }{ if ($1 || $3) { "<!$1 $3>"; } }gesx; #HTML
$body =~ s{ < (?: [^>'"] * | ".*?" | '.*?' ) + > }{}gsx; #SSI

mfg Beat
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. HTML-Tags entfernen mittels RegExp?
  
  Joerg Peschke 09.07.2004 15:20
  
  perl
  – Informationen zu den Bewertungsregeln
  Folgender Code ist von Tom Christianson und entfernt HTML Tags (verschachtelte über mehrere Zeilen)
  sowie SSI Tags
  
  $body =~ s{ <! (.*?) ( -- .*? -- \s* )+ (.*?) > }{ if ($1 || $3) { "<!$1 $3>"; } }gesx; #HTML
  $body =~ s{ < (?: [^>'"] * | ".*?" | '.*?' ) + > }{}gsx; #SSI
  
  mfg Beat
  
  Cool, vielen Dank!!! Werde ich gleich mal ausprobieren!
  
  gruesse,
  Joerg
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. HTML-Tags entfernen mittels RegExp?
    
    Beat 09.07.2004 22:16
    
    perl
    
    – Informationen zu den Bewertungsregeln
    gehts gehts nicht?
    Hab' die Filter in der Eile falsch angeschrieben
    hast es vielleicht bemerkt.
    mfg Beat
    
    $body =~ s{ <! (.*?) ( -- .*? -- \s* )+ (.*?) > }{ if ($1 || $3) { "<!$1 $3>"; } }gesx; #----SSI
    $body =~ s{ < (?: [^>'"] * | ".*?" | '.*?' ) + > }{}gsx; # ----HTML
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Joerg Peschke: HTML-Tags entfernen mittels RegExp?