Böser Fehler! von ritschmanhard, 27.08.2008 13:06

Böser Fehler!

ritschmanhard 27.08.2008 13:06

sonstiges

Hi der_V!

Ich mach mal einen kleinen Baum (exit -1=> du kriegst die Info nicht, return 0 => info OK):

(0)sind die URLs der benötigten Informationen konstant?
Y => goto (1)
N => ist dir bekannt, wie die URL zur Info gebildet wird?
Y => goto (1)
N => exit -1 (oder suche jedes mal von Hand...)

(1)sind sog. Framebreaker unter den Informationsseiten
Y => goto (2)
N => genügt es dir, alle Seiten komplett zu sehen (Y) oder willst du einzelne Informationen herausparsen (N)?
Y => erstelle dir eine offline http://de.selfhtml.org/html/frames/definieren.htm#frames@title=frame page, bei der jeder Frame auf eine benötigte location zeigt, return 0
N => goto (2)

(2)nun benötigen wir eine Sprache, die content laden und verarbeiten kann. In Frage kommt grundsätzlich jede Sprache, aber da du das Ergebnis im Browser betrachten willst, wird folgendes notwendig:
a) setze einen Server auf (z.B. Apache, IIS)
b) mit einer Sprachunterstützung deiner Wahl (perl, php, java, python, ruby)
(Anmerkung: unter Windows würde ich XAMPP = Apache + Perl verwenden, unter Linux wurde ich die packages Perl und Apache installieren)
c)In perl kann man mittels folgender Befehle dann was erreichen:

use LWP::UserAgent;
use HTTP::Request;

my $url="http://www.example.com";

my $ua=new LWP::UserAgent;
my $request=new HTTP::Request 'GET', $url;
my $response=$ua->request($request);
if ($response->is_success)
{
my $content = $response->content();
...[jetzt ist die Seite (html) in $content geladen und kann geparst* werden, wie man den entsprechenden output generiert findest du <http://de.selfhtml.org/perl/module/cgi.htm@title=im cgi modul>]...

Anschließend rufst du dein eigenes CGI im localhost auf => return 0.

(*) natürlich nur, wenn die Struktur der Informationsseite ein gleichbleibendes Muster ergibt, das ein parsing ermöglicht.

Grüße,
Richard

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

ritschmanhard: Böser Fehler!

Beitrag lesen

Böser Fehler!

Interseiten Parsen

Böser Fehler!