Element mit Class aus HTML-Dom extrahieren von molily, 09.02.2011 16:14

Element mit Class aus HTML-Dom extrahieren

meinzlein 09.02.2011 15:00

Hallo,

ich möchte aus dem HTML-Dom unter $url die HTML-Element mit der Class (oder wahlweise auch Id) $extract-selector extrahieren.

Wie bekomme ich das am schicksten hin?

Taut dafür http://simplehtmldom.sourceforge.net/ etwas?

Oder gibt es PHP-eigene Mittel um Dom zu parsen und zu durchlaufen?

Grüße

Beitrag melden

– Informationen zu den Bewertungsregeln

Element mit Class aus HTML-Dom extrahieren
suit Homepage des Autors 09.02.2011 15:07

php
– Informationen zu den Bewertungsregeln
Oder gibt es PHP-eigene Mittel um Dom zu parsen und zu durchlaufen?

Ungültiges HTML in dein DOM zu überführen ist schwierig - Simple HTML DOM ist da so ziemlich das beste was man bekommen kann. PHP hat build-in nur Vergleichbare Dinge, die aber wohlgeformtes XML erwarten.

Wenn du also wohlgeformte XHTML-Dokumente hast, kannst du diese z.B. mit SimpleXML parsen.

Ansonsten, bleib bei HTML DOM um den "Dreck" zu parsen.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Element mit Class aus HTML-Dom extrahieren
  
  molily 09.02.2011 15:47
  
  php
  – Informationen zu den Bewertungsregeln
  PHP hat build-in nur Vergleichbare Dinge, die aber wohlgeformtes XML erwarten.
  
  Falsch.
  
  Mathias
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Element mit Class aus HTML-Dom extrahieren
    
    suit Homepage des Autors 09.02.2011 15:59
    
    php
    
    – Informationen zu den Bewertungsregeln
    PHP hat build-in nur Vergleichbare Dinge, die aber wohlgeformtes XML erwarten.
    
    Falsch.
    
    Ja, mein Wissensstand ist diesbezüglich sehr outdated gewesen.
    
    Wenn aber die Qualität dieser Funktionen vergleichbar mit der von strip_tags() ist, sollte man davon nicht zu viel erwarten. Simple HTML DOM hingegen hat für mich bisher immer zufriedenstellend funktioniert.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. Element mit Class aus HTML-Dom extrahieren
      
      molily 09.02.2011 16:14
      
      php
      
      – Informationen zu den Bewertungsregeln
      
      Ja, mein Wissensstand ist diesbezüglich sehr outdated gewesen.
      
      Noch vor Juli 2004 (PHP 5)? ;)
      
      Wenn aber die Qualität dieser Funktionen vergleichbar mit der von strip_tags() ist, sollte man davon nicht zu viel erwarten.
      
      Das DOM-Modul nutzt libxml, auch für das HTML-Parsing. Wie es mit HTML-Parsing steht, habe ich nicht ausführlich getestet, aber ansonsten ist libxml als zuverlässig bekannt.
      
      Mittlerweile gibt es ja auch HTML5-konforme HTML-Parser in PHP.
      
      Mathias
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. Element mit Class aus HTML-Dom extrahieren
        
        suit Homepage des Autors 09.02.2011 16:25
        
        php
        
        – Informationen zu den Bewertungsregeln
        
        Ja, mein Wissensstand ist diesbezüglich sehr outdated gewesen.
        
        Noch vor Juli 2004 (PHP 5)? ;)
        
        Ich sagte ja "sehr" :D
        
        Das ist eher Zeug, welches ich selten brauche. Fremde Seiten lese ich nicht und wenn dann gibts die Inhalte in Aggregationsformaten die idR. "irgendwas mit XML" sind.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
Element mit Class aus HTML-Dom extrahieren
jobo 09.02.2011 15:08

php
– Informationen zu den Bewertungsregeln
Hallo,

ich möchte aus dem HTML-Dom unter $url die HTML-Element mit der Class (oder wahlweise auch Id) $extract-selector extrahieren.

Wie bekomme ich das am schicksten hin?

Taut dafür http://simplehtmldom.sourceforge.net/ etwas?

Oder gibt es PHP-eigene Mittel um Dom zu parsen und zu durchlaufen?

http://php.net/manual/de/class.domdocument.php

Gruß

jobo
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

meinzlein: Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren

Element mit Class aus HTML-Dom extrahieren