1UnitedPower: Gute HTML-Parser-Klasse gesucht

Beitrag lesen

Hakuna matata!

DOMDocument::loadHTML() basiert genau wie der Python-Parser auf libxml.

Basiert ist wohl der richtige Ausdruck (lxml ist keine 1:1-Umsetzung von libxml2, ausdrücklich nicht) und zudem war ja nicht nur nach einer Möglichkeit gesucht, HTML in ein Objekt zu laden, das wäre alleine ziemlich nutzlos.

PHPs DOM Implementierung ist auch keine 1:1-Umsetzung. Man hat bei PHP versucht in Richtung DOM zu abstrahieren, in Python hat man eine neue API entworfen, die mehr dem Python-Stil entspricht. Beides hat seine Vor- und Nachteile. Ich dachte du spielst mit deinem Kommentar "Ach, PHP … schade." auf einen konkreten Nachteil in der PHP-API an, deswegen habe ich das nochmal aufgegriffen.

Beide Implementierungen teilen sich vermutlich den Nachteil, dass die Parser nicht HTML5-konform sind.

--
“All right, then, I'll go to hell.” – Huck Finn
1 43

Gute HTML-Parser-Klasse gesucht

Robert R.
  • php
  1. 1
    1UnitedPower
    1. 2
      Robert R.
  2. 1
    Felix Riesterer
    1. 0
      Robert R.
  3. 1
    Mattes
    1. 1
      1UnitedPower
      1. 0
        Mattes
        1. 0
          1UnitedPower
        2. 0
          Robert R.
      2. 0
        Robert R.
        1. 0
          1UnitedPower
        2. 0
          Felix Riesterer
    2. 0
      Robert R.
      1. 0
        Mattes
  4. 0

    DOMDocument & Co. richtig anwenden

    Robert R.
    1. 0
      Robert R.
      1. 0
        dedlfix
        1. 0

          DOMDocument & Co. - grafische Darstellung erzeugen?

          Robert R.
          1. 0
            dedlfix
            1. 0

              DOMDocument & Co. - Beispiel gefunden, trotzdem Fragen

              Robert R.
              1. 0

                DOMDocument & Co. - Nodetype für <style>-Definitionen gesucht

                Robert R.
                1. 0

                  DOMDocument & Co. - CData-Node auseindernehmen

                  Robert R.
                  1. 0
                    dedlfix
                    1. 0
                      Robert R.
                      1. 0

                        DOMDocument & Co. - insertBefore()

                        Robert R.
                        1. 0

                          DOMDocument & Co. - insertBefore(), Nachtrag

                          Robert R.
                        2. 0
                          Felix Riesterer
                          1. 0
                            Robert R.
                            1. 0
                              Robert R.
                              1. 0

                                Chakka! DOMDocument & Co. - insertBefore() - Teil 1

                                Robert R.
                              2. 0

                                CHAKKA! DOMDocument & Co. - insertBefore() - Teil 2

                                Robert R.
                              3. 0

                                DOMDocument & Co. - nodeValue versa textContent

                                robertroth
                                1. 0
                                  dedlfix
                                  • html
                                  • php
                                  1. 0
                                    robertroth
                                    1. 0

                                      Zeilenumbrüche!

                                      robertroth
                                      • html
                                      • zu diesem forum
                                      1. 0
                                        dedlfix
                                    2. 0
                                      dedlfix
                                    3. 1
                                      Jnnbo
                                      • menschelei
                                      1. 0
                                        robertroth
                              4. 1

                                DOMDocument & Co. - Härte der Klasse: Test nicht bestanden

                                robertroth
                                • html
                                • php
                                1. 0
                                  dedlfix
                                  1. 0
                                    robertroth