Frage: Webseite teilweise einlesen

Hallo,

wie kann ich aus einer Seite die Tabelle einlesen?
(Mit WICHTIG Zellenfarbe)

(gerne über php)

http://www.ferien-europa.de/fe/be/GetPage?page=110

Gruss
frage

  1. Hello,

    hab eben schon mal googled...
    Feritge Funktionen zum Parsen von HTML-Seiten habe ich noch nicht gefunden.
    Allerdings gibt es bei PHP Funktionen zum Parsen von XML
    http://www.php.net/manual/en/ref.xml.php

    Wäre schon fein, wenn man alle Elemente und deren Attribute und Daten in ein großes PHP-Array (oder mehrere) überführen könnte...

    Harzliche Grüße vom Berg
    http://www.annerschbarrich.de

    Tom

    --
    Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
    Nur selber lernen macht schlau

    1. Lieber Tom,

      Allerdings gibt es bei PHP Funktionen zum Parsen von XML
      http://www.php.net/manual/en/ref.xml.php

      Wäre schon fein, wenn man alle Elemente und deren Attribute und Daten in ein großes PHP-Array (oder mehrere) überführen könnte...

      auch das gibt es bereits! In meinem GB-Script verwende ich eine solche Funktion, die mir die Elemente eines XML-Baumes in ein Array liest. Diese benutzt eine Class (nicht von mir), mit deren Hilfe das recht einfach geht, da diese die XML-Struktur in einem großen Array ablegt.

      Man braucht nun nur noch das Array nach eigenen Bedürfnissen umgestalten - fertig. Mein Script "hole-daten.script.inc" in meinem GB-Script ist ein Beispiel dafür...

      Damit sollte es kein Problem mehr sein, die Tabelle aus der ursprünglichen Seite zu extrahieren, in eine XML-Datei zu stopfen (reicht ja schon als String...), diese dann entsprechend auswerten zu lassen, um die Daten zu bekommen.

      Liebe Grüße aus Ellwangen,

      Felix Riesterer.

      --
      ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)
      1. Hello Felix,

        Damit sollte es kein Problem mehr sein, die Tabelle aus der ursprünglichen Seite zu extrahieren, in eine XML-Datei zu stopfen (reicht ja schon als String...), diese dann entsprechend auswerten zu lassen, um die Daten zu bekommen.

        Jau, abr eben für XML. Ich habe mal versucht, die vorhandenen Klassen für das HTML-Parsing zu verwenden, aber leider keinen Erfolg gehabt.

        Es muss da aber inzwischen umfangreiche Entwicklungen geben, denn die Spam-Bots werden schließlich immer besser. Und die Jungs habe das bestimmt auch nicht alles alleine ersonnen, sondern auf fertige Vorentwicklungen zurückgegriffen.

        Harzliche Grüße vom Berg
        http://www.annerschbarrich.de

        Tom

        --
        Fortschritt entsteht nur durch die Auseinandersetzung der Kreativen
        Nur selber lernen macht schlau

        1. Lieber Tom,

          Jau, abr eben für XML. Ich habe mal versucht, die vorhandenen Klassen für das HTML-Parsing zu verwenden, aber leider keinen Erfolg gehabt.

          Es muss da aber inzwischen umfangreiche Entwicklungen geben, denn die Spam-Bots werden schließlich immer besser. Und die Jungs habe das bestimmt auch nicht alles alleine ersonnen, sondern auf fertige Vorentwicklungen zurückgegriffen.

          was hindert Dich daran, den HTML-Code in seiner Syntax XML-fähig zu machen und ihn danach zu parsen? Unser OP wollte eine Tabelle haben. Also holt man sich den HTML-Code, "löst" die Tabelle heraus, bastelt sich eine passende DTD für die Tabelle (man sieht ja auf der Seite, welche Bestandteile zum Einsatz kommen und welche nicht), ergänzt eventuell fehlende End-Tags, stellt sicher, dass alle Attributwerte in doppelten Anführungszeichen stehen und die Tags alle schön klein geschrieben sind - fertig für's Parsen!

          Liebe Grüße aus Ellwangen,

          Felix Riesterer.

          --
          ie:% br:> fl:| va:) ls:[ fo:) rl:° n4:? de:> ss:| ch:? js:) mo:} zu:)
        2. Hallo Tom!

          Für Python und Ruby gibt es sowas Cooles wie Beautiful Soup bzw. Rubyful Soup.

          Servus

          --
          flowh .