emetiel: Webseiten auswerten

Hallo,

ist es möglich, mittels eines Programms, den Inhalt einer Webseite zu analysieren ohne diese im Browser vorher zu öffnen?

Jetzt nicht im Sinne einer Suchmaschine.

Ich plane Seiten für Satelliteneinstellungen wie es z.B.: http://www.newstown.de eine ist auszuwerten.

Also das Programm bekommt einen Link übergeben bzw. ließt aus einer DB eine Reihe von Links aus und dann werden die angegebenen Seiten "zerpflückt"

In dem Beispiel:
TV / Radio Frequenz in GHz Trans-ponder Sendername
TV                 11,1708           47   1-2-3.tv
TV                 11,3470           10   3sat
TV                 10,9355           64   9Live

Genre      Sprache Frequenz  in MHz Audio in MHz       Pol.   Satellit
Shopping   deutsch     1420          7,02   7,20          H   ASTRA 1L
Kultur     deutsch     1597          6,5    7,02/7,20     V   ASTRA 1F
Spiele     deutsch     1186          7,02   7,20          V   ASTRA 1KR

Diese Daten möchte ich jetzt einfach in eine Datenbank packen und wann immer sich etwas ändert, eine Meldung ausgeben.

Geht so etwas?

  1. Moin!

    Geht so etwas?

    Ja.

    Fraglich ob du das darfst.

    Fordere in deinem Programm die http-Ressourcen an und zerpfluecke die Seiten. Wenn solche Seiten  ihre Daten allerdings frei zur Verfuegung stellen, gibt es fuer gewoehnlich irgendeine XML-Ressource oder aehnliches, das man dafuer verwendet.

    --
    Vergesst Chuck Norris.
    Sponge Bob kann unter Wasser grillen!
    1. Moin!

      Moin

      Geht so etwas?
      Ja.
      Fraglich ob du das darfst.

      Das lese ich zum wiederholten male, warum sollte man das nicht dürfen? Ich brauche doch keine Lizenz zum Webseiten-Laden.
      Das einzige wäre, dass es nett ist, wenn man sich an die robot.txt hält, also die als erstes mal läd :)
      Also nochmal: Wer will mir verbieten eine öffentliches Webangebot zu laden und Daten daraus zu extrahieren?

      --
      sh:( fo:| ch:? rl:( br:& n4:& ie:{ mo:} va:) de:µ_de:] zu:) fl:( ss:| ls:[ js:(
      1. Also nochmal: Wer will mir verbieten eine öffentliches Webangebot zu laden und Daten daraus zu extrahieren?

        Das Urheberrecht! Natürlich kannst du die Seiten laden, die Inhalte darfst du jedoch nicht ohne weiteres verwerten.

        Die robots.txt zu laden macht übrigens nur Sinn, wenn sie auch entsprechend ausgewertet wird. In dem angegebenen Fall ist es wohl besser, den HTTP-Request mit zusätzlichen Paramteren wie If-Modified-Since zu erweitern.

      2. Moinsen!

        Das lese ich zum wiederholten male, warum sollte man das nicht dürfen? Ich brauche doch keine Lizenz zum Webseiten-Laden.

        Zum Laden nicht.

        Also nochmal: Wer will mir verbieten eine öffentliches Webangebot zu laden und Daten daraus zu extrahieren?

        Wer will Dir verbieten, Buecher zu lesen und daraus zu extrahieren? Niemand, solange du das aus Spass an der Freud machst. Vielleicht moechtest Du deine Wand mit dem neuesten Bestseller oder Giger tapezieren. Die Tapete darfst Du aber nicht verkaufen.

        Wenn also Webseiten ausgelesen werden sollen, um quasi Daten zu stehlen und selbst zu veroeffentlichen, wird die Sache interessant fuer unsere Rechtsvertreterfreunde.

        Also ist doch erstmal fraglich ob ein Fragesteller sein beschriebenes Vorhaben ueberhaupt durchfuehren darf. Viele Leute glauben ja, sie koennten mit Webinhalten tun, was sie wollen und sind sich nichtmal bewusst, dass sie grad dabei sind, einen Rechteverstoss zu begehen.

        Im Klartext: Die runtergeladenen Pornos duerfen auf der Fesplatte landen, aber nicht auf der eigenen Seite.

        --
        Vergesst Chuck Norris.
        Sponge Bob kann unter Wasser grillen!
        1. Moinsen!

          Das lese ich zum wiederholten male, warum sollte man das nicht dürfen? Ich brauche doch keine Lizenz zum Webseiten-Laden.

          Zum Laden nicht.

          Eben...

          Wenn also Webseiten ausgelesen werden sollen, um quasi Daten zu stehlen und selbst zu veroeffentlichen, wird die Sache interessant fuer unsere Rechtsvertreterfreunde.

          Ja logisch, aber ich verstehe nun was du meinst: Ich hatte aus der Fragestellung überhaupt nicht den Wunsch zur Re-Publikation herausgelesen.
          Ich habe das so verstanden: emetiel möchte eine bzw. mehrere Webseiten auslesen, auf denen sich Informationen über via Satellit empfangbare Programme befinden (Transponder, Genre, Ausrichtung, Name etc.). Mit dem Zweck bei Änderung sich eine Meldung anzeigen zu lassen, damit er seine TV-Karte bzw. seine Schüssel oder seinen Reciever oder sonst was entsprechend einstellen kann.
          Sprich: Ein neuer Kanal taucht am Satelliten-Himmel auf und emetiel möchte das zeitnah erfahren, damit er entscheiden kann "aha, yet-another-sexhotline-ad-channel, brauch ich nicht" oder "oha, neuer Klingelton-Verkaufssender, gleich mal Sendersuchlauf machen" ;)

          Also ist doch erstmal fraglich ob ein Fragesteller sein beschriebenes Vorhaben ueberhaupt durchfuehren darf. Viele Leute glauben ja, sie koennten mit Webinhalten tun, was sie wollen und sind sich nichtmal bewusst, dass sie grad dabei sind, einen Rechteverstoss zu begehen.

          Wie gesagt, offensichtlich ein missverständnis, weil ich nicht von einer Re-Publikation ausging und du eben sehr wohl, das aber nicht erwähntest :)

          --
          sh:( fo:| ch:? rl:( br:& n4:& ie:{ mo:} va:) de:µ_de:] zu:) fl:( ss:| ls:[ js:(
          1. Moin!

            Wie gesagt, offensichtlich ein missverständnis, weil ich nicht von einer Re-Publikation ausging und du eben sehr wohl, das aber nicht erwähntest :)

            Ich bin nicht davon ausgegangen aber hielt sie für möglich bis wahrscheinlich. Hat ja nix dazu gesagt. Das liegt schlicht daran, daß sowas eben gern oft gemacht wird um mit diesen Daten irgendwas anderes anzufangen als den heimichen DVD Recorder zu programmieren. Die Unwissenheit der Leute lässt sie oft gar nicht in Erwägung ziehen, daß es vielleicht wichtig ist, zu wissen, was sie damit wollen. Also frag ich einfach mal und weise nebenher drauf hin, daß da evtl. rechtliche Probleme lauern. Ich könnt, wie hier, auch Romane schreiben, aber ich mach bei sowas gern ne kleine Bemerkung und warte auf Feedback. Kam ja nun leider nicht vom OP.

            --
            Vergesst Chuck Norris.
            Sponge Bob kann unter Wasser grillen!
          2. Hi.

            Sprich: Ein neuer Kanal taucht am Satelliten-Himmel auf und emetiel möchte das zeitnah erfahren, damit er entscheiden kann "aha, yet-another-sexhotline-ad-channel, brauch ich nicht" oder "oha, neuer Klingelton-Verkaufssender, gleich mal Sendersuchlauf machen" ;)

            YMMD :D

            Schönen Sonntag noch!
            O'Brien

            --
            Frank und Buster: "Heya, wir sind hier um zu helfen!"
  2. Hi,

    ist es möglich, mittels eines Programms, den Inhalt einer Webseite zu analysieren ohne diese im Browser vorher zu öffnen?

    natürlich - das Programm muss einen HTTP-Request absetzen, die Antwort empfangen, und daraus die benötigten Informationen extrahieren; es muss sich gegenüber dem Server also wie ein gewöhnlicher HTTP-Client verhalten.

    Jetzt nicht im Sinne einer Suchmaschine.

    Doch, das ist technisch dasselbe.

    Diese Daten möchte ich jetzt einfach in eine Datenbank packen und wann immer sich etwas ändert, eine Meldung ausgeben.
    Geht so etwas?

    Sicher, wenn du die Original-Ressource ausreichend häufig abfragst.

    Ciao,
     Martin

    --
    Ein Ehepaar beim Sex. Sie fragt ihn: "Woran denkst du gerade?" - Er antwortet: "Kennste sowieso nicht."
    Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(