TS: SR-Nachrichten Excerpt

Beitrag lesen

Hallo,

Eigentlich hast Du schon alles genannt, ich brauche:

  • den Inhalt von title,
  • description
  • href,

also Schlagzeile, Teasertext (entspricht hier dem kompletten Meldungstext) und Link. Das ist alles leider nicht auf einer Seite untergebracht, sondern auf Unterseiten, die deshalb einzeln geparst werden müssen. Am Ende soll alles so aussehen wie auf meiner jetzigen Seite, bloß ohne Fehler:

Alternativ-Text

Der Teaser-Text landet in einem tooltipp, der bei mouseover erscheint. Aber eigentlich brauche ich nur den Inhalt der Felder in verlässlicher Zeichendarstellung. Jetzt gehe ich auf jede Seite und parse mithilfe von Xpath den Meldungstext, [...]

Das habe ich mir soweit angeschaut und daraus meine Schlüsse gezogen.

SR-Online ist so freundlich, alle notwenigen Elemente (bitt kontrollieren) im Container

<div id="mitte_text">

zusammenzufassen. Den habe ich mir einfach rausgeholt aus der Seite und z.B. mal eben die Links darin umgeschrieben auf absolute (http://sr-online.de/ [...]) Adressierung. Das geht mit DOMDocument alles recht einfach, wenn man erst einmal die Hürden überwunden hat.

Alternativ-Text

Die nächste Überlegung sollte also sein, ob in dem gegrabbten Container (s.o.) alles enthalten ist, was du benötigst -> Quellcode:

<!DOCTYPE HTML>
<html lang="de">

<head>
	<title>SR-Online</title>
</head>
<body>
	
<div id="mitte_text">
<h1>Hörfunknachrichten, 13.06.2015 12:10 Uhr</h1>
<div><h1>
<!--13.06.2015 1200-->Berlin: Gutachter widersprechen Regierungsabsicht</h1></div>
<div><p>Für den NSA-Untersuchungsausschuss steigen die Chancen, doch noch Einsicht in die sogenannte Selektorenliste des US-Geheimdienstes zu erhalten.
Nach Einschätzung des Wissenschaftlichen Dienstes des Bundestages ist es nicht zulässig, die Akten einem Sonderermittler vorzulegen und gleichzeitig dem Ausschuss die Einsicht zu verweigern. Ein Ermittlungsbeauftragter sei nur Hilfsperson und dürfe nicht mehr Rechte haben als der Ausschuss.
Die Selektorenliste könnte Aufschluss darüber geben, wen die NSA mit Hilfe des BND ausgeforscht hat.
</p></div>
<div></div>
<hr style="height:2px;">
<div class="mitte_folgeseiten"><ul>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-1.html"><!--13.06.2015 1200-->Brüssel: Griechenland geht optimistisch in weitere Verhandlungen</a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_archiv_thispage.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-2.html"><!--13.06.2015 1200-->Berlin: Gutachter widersprechen Regierungsabsicht</a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-3.html"><!--13.06.2015 1201-->Essen: Gläubiger dürfen sich bei Middelhoff bedienen</a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-4.html"><!--13.06.2015 1202-->Washington: Schwere Abstimmungsniederlage für Obama</a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-5.html"><!--13.06.2015 1202-->Saarbrücken: Neue ICE-Generation nach Paris</a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-6.html"><!--13.06.2015 1203-->Luxemburg : Festakt zu 30 Jahre Schengener Abkommen  </a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-7.html"><!--13.06.2015 1203-->Luxemburg : Kulturzentrum „rotondes" wird eröffnet </a>
</li>
<li>
<img src="http://sr-online.de/sronline/images/element_mitte_link_intern.gif" height="9" width="22" alt="Link"><a href="http://sr-online.de/sronline/nachrichten/hoerfunknachrichten/hoerfunknachrichten_aktuell100~_seite-8.html"><!--13.06.2015 1204-->: Das Wetter: Wechselhaft bis 26 Grad</a>
</li>
</ul></div>
<!-- Falls Personendokument, dann als Moderator(en) ausgeben -->
<div class="autor">(Saarländischer Rundfunk)</div>
<p style="clear:both;"></p>
</div>
	
</body>
</html>

Die Dokumentstruktur drum herum stammt von mir. Geholt habe ich nur das DIV und habe die Links (href=) und die Images (src=) automatisch umgeschrieben, da die bei SR-Online nur absolut zur DOMAIN angebeben werden (mMn auch sinnvoll).

Du kannst also nun entscheiden, wie Du vorgehen willst:

  • Du erhältst ein Array mit Klartextangaben, die Du dann fürs neue HTML verarbeiten musst
  • Du erhältst fertige HTML-Nodes, die Du mittels DOMDocument in dein neues Dokument einfügen kannst.

Mangels Erfahrungen damit würde ich das nicht als Klasse bauen. Ich würde mich aber freuen, wenn das jemand umbauen könnte nachher, wenn alles funktioniert. Ich will schließlich auch noch 'was lernen :-)

Grüße
TS

PS:
nebenbei kümmere ich mich um meine abgestürzte Terabyte-Platte. Immer, wenn die arbeitet, gucke ich hier... Drück mir die Daumen, dass ich die Daten alle retten kann :-)

0 139

htmlentities "bereinigen"

glupto
  • php
  1. 0
    dedlfix
  2. 1
    TS
    1. 0
      glupto
      1. 0
        Auge
        1. 0

          Korrektur meines vorherigen Postings

          Auge
          1. 0
            glutpo
            1. 1
              Der Martin
              1. 0
                glutpo
                1. 0
                  Der Martin
                  1. 0
                    glutpo
                    1. 0
                      Der Martin
                      1. 0
                        glutpo
                        1. 0
                          Der Martin
                        2. 0

                          meta-charset - Angabe war nicht innerhalb der ersten 1024 Bytes

                          TS
                          1. 0
                            dedlfix
                            1. 0

                              Fakten, Fakten, Fakten

                              TS
                              • meinung
                              • php
                  2. 0
                    Gunnar Bittersmann
            2. 0
              Auge
              • html
              • php
              1. 0
                glutpo
                1. 0
                  Camping_RIDER
                  1. 0
                    Gunnar Bittersmann
                    1. 0
                      Camping_RIDER
                    2. 0

                      Meta-Angabe im File unerheblich?

                      TS
                    3. 0

                      Offenheit für Fehlerquellen

                      Camping_RIDER
                      • html
                      • menschelei
                      • php
                  2. 0
                    glutpo
                    1. 0
                      Matthias Apsel
                      1. 0
                        Gunnar Bittersmann
                        1. 0
                          Tabellenkalk
                      2. 0
                        Tabellenkalk
                2. 1
                  Auge
                  1. 0
                    dedlfix
                    1. 0

                      Aha, dann weiter im Text.

                      Auge
                      1. 0
                        Gunnar Bittersmann
                        • html
                        • sprache
                        1. 0
                          Auge
                        2. 0
                          Gunnar Bittersmann
                      2. 0
                        dedlfix
                        1. 0

                          Danke erstmal an alle,...

                          glupto
                          1. 0
                            dedlfix
                    2. 0
                      TS
                  2. 0
                    glupto
                    1. 0
                      dedlfix
                    2. 0
                      woodfighter
                      1. 0

                        dein Impressum

                        woodfighter
                        • recht
                        1. 0
                          glupto
                          1. 0
                            Der Martin
                      2. 0
                        glupto
                        1. 2
                          dedlfix
                          1. 0
                            glupto
                            1. 0
                              Camping_RIDER
                              1. 0
                                dedlfix
                                1. 0
                                  Camping_RIDER
                                2. 0
                                  glupto
                                  1. 0
                                    Auge
                                    1. 0
                                      glupto
                                      1. 0
                                        Auge
                                    2. 0
                                      glupto
                                      1. 0
                                        Auge
                                        1. 0
                                          glupto
                                          1. 0
                                            Auge
                                            1. 0
                                              glupto
                                              1. 0
                                                Auge
                                                • php
                                                1. 0
                                                  glupto
                                                  1. 0
                                                    TS
                                                    1. 0

                                                      DOMDocument: Fehlerhaftes Parsing und Dekodierung, [gelöst]

                                                      TS
                                                      1. 0
                                                        glupto
                                                        1. 0

                                                          DOMDocument: Fehlerhafte Dekodierung, Jetzt aber...

                                                          TS
                                                      2. 0
                                                        dedlfix
                                                    2. 0
                                                      glupto
                                                      1. 0

                                                        Bitte ändert doch den Betreff immer passend ab

                                                        TS
                                                        • meinung
                                                        • php
                                                        1. 0
                                                          dedlfix
                                                          1. 0

                                                            Ätsch, war trotzdem falsch. Aber nun gibts Workaround:

                                                            TS
                                                            • php
                                                            1. 0

                                                              Kurzfassung

                                                              TS
                                                              1. 0
                                                                TS
                                                                1. 1
                                                                  TS
                                                                  1. 0
                                                                    dedlfix
                                                                    1. 0
                                                                      TS
                                                            2. 0

                                                              Weiterführende Gedanken zur gefundenen Lösung

                                                              TS
                                                              1. 0
                                                                dedlfix
                                                                1. 0
                                                                  TS
                                                                  1. 0
                                                                    dedlfix
                                                                    1. 0
                                                                      TS
                                                                      1. 0
                                                                        dedlfix
                                                                        1. 0
                                                                          glupto
                                                                          1. 0
                                                                            TS-ohne
                                                                            1. 0
                                                                              glupto
                                                                              1. 0

                                                                                SR-Nachrichten Excerpt

                                                                                TS
                                                                                • html
                                                                                • php
                                                                                1. 0
                                                                                  glupto
                                                                                  1. 0
                                                                                    TS
                                                                                    1. 0
                                                                                      glupto
                                                                                      1. 0
                                                                                        TS
                                                                                        1. 0
                                                                                          glupto
                                                                                          1. 0
                                                                                            Gunnar Bittersmann
                                                                                            • design/layout
                                                                                            1. 0
                                                                                              glupto
                                                                                              1. 0

                                                                                                SR-Nachrichten Excerpt, Grabbellösung

                                                                                                TS
                                                                                                • html
                                                                                                • php
                                                                                                1. 0
                                                                                                  glupto
                                                                                                  1. 0

                                                                                                    SR-Nachrichten Excerpt, Grabbel- und Guck-Lösung

                                                                                                    TS
                                                                                                    1. 0
                                                                                                      glupto
                                                                                                2. 0
                                                                                                  glupto
                                                                                                  1. 0
                                                                                                    TS
                                                                                                    1. 0
                                                                                                      glupto
                                                                                                      1. 0
                                                                                                        Auge
                                                                                                        1. 0
                                                                                                          glupto
                                                                                                          1. 0

                                                                                                            Einen Datengrabber schreiben, wie geht es weiter?

                                                                                                            TS
                                                                                                            1. 0
                                                                                                              glupto
                                                                                                              1. 0
                                                                                                                TS
                                                                                                                1. 0
                                                                                                                  glupto
                                                                                                            2. 0
                                                                                                              glupto
                                                                                                          2. 0
                                                                                                            Auge
                                                                                                            • php
                                                                                                            1. 0
                                                                                                              glupto
                                                                                        2. 0

                                                                                          Völlig offtopic, Frage an TS

                                                                                          Jörg Reinholz
                                                                                          • offtopic
                                                                                          1. 0
                                                                                            Matthias Apsel
                                                                                            • zu diesem forum
                                                                                          2. 0
                                                                                            TS
                                                                                            1. 2
                                                                                              Jörg Reinholz
                                                                                        3. 0
                                                                                          Auge
                                                                                          • https
                                                                                          • php
                                                                                          1. 0
                                                                                            glupto
                                                                                            1. 0
                                                                                              Auge
                                                                                              1. 0
                                                                                                glupto
                                                                                                1. 0
                                                                                                  Auge
                                                                                                2. 0
                                                                                                  Jörg Reinholz
                                                                                                  • https
                                                                                                  • recht
                                                                                          2. 0
                                                                                            TS
                                                                                            1. 0
                                                                                              Auge
                                                                                          3. 0

                                                                                            header('Content-Type: text/html; charset=UTF-8');

                                                                                            TS
                                                                                            1. 0
                                                                                              Auge
                                                                                              • https
                                                                                            2. 0
                                                                                              woodfighter
                                                                                              1. 0
                                                                                                RS
                                                                                                1. 0
                                                                                                  woodfighter
                                              2. 0
                                                dedlfix
                                          2. 0
                                            dedlfix
                                      2. 0
                                        dedlfix
                              2. 0
                                Auge
                                1. 0
                                  Camping_RIDER
                              3. 0
                                glupto
                                1. 0
                                  Camping_RIDER
                                2. 0
                                  Auge
                        2. 0

                          SR-Nachrichten als ISO interpretiert

                          TS
      2. 0
        TS
      3. 0
        Christian Kruse
        1. 0
          glupto