quasi_modem: Suchmaschine in Perl möglich?

Hallo Forum,

kann man mit Perl eine Suchmaschine bauen, die nicht die eigene Homepage durchsucht, sondern externe Seiten? Also eine kleine Google Suchmaschine oder so ähnlich?

Also die eigentliche Frage:
Kann man mit Perl den Quellcode oder Seiteninhalt von html-Seiten auslesen, die sich NICHT auf dem eigenen Server befinden?

Für jede Anregung oder Hinweis dankbar,
quasi_modem.

  1. Moin, moin!

    Man kann mit Perl Seiten auf fremden Servern auslesen. Beschäftige Dich dazu mal mit dem Modul LWP::Simple.

    Einfaches Beispiel:
    use LWP::Simple;
    $seiteninhalt=get("http://www.irgendwas.de/egal.htm");

    Norbert

    1. schönen Dank, genau das wollte ich wissen!!!!

      Moin, moin!

      Man kann mit Perl Seiten auf fremden Servern auslesen. Beschäftige Dich dazu mal mit dem Modul LWP::Simple.

      Einfaches Beispiel:
      use LWP::Simple;
      $seiteninhalt=get("http://www.irgendwas.de/egal.htm");

      Norbert

      1. Hallo,

        schönen Dank, genau das wollte ich wissen!!!!

        Einfaches Beispiel:
        use LWP::Simple;
        $seiteninhalt=get("http://www.irgendwas.de/egal.htm");

        das ist aber nur der erste Schritt. Wenn es größer werden soll, muß man noch folgendes Bedenken:

        • wie speichere/organisiere ich die Daten (Datenbank?!)
        • wie löst man Links auf und wie bzw. welche verfolgt man
        • wie verhindert man, nicht in Seiten zweimal zu laufen

        ein Tip zum letzten Punkt:

        http://www.domain.de ist meist mit http://www.domain.de/index.html gleichzusetzen. Ich würde empfehlen, über den Quelltext einen MD5-Schlüssel zu generieren, somit weißt Du, welche Seiten gleich sind, auch wenn der URL verschieden ist!

        Reiner

  2. Sup!

    Gibt's schon.

    http://www.swish-e.org
    http://www.perlfect.com
    http://www.xwolf.com

    Man kann im Notfall aber auch htdig nehmen... ist zwar in C, aber im Endeffekt ist es ja egal, welche Sprache benutzt wird, wenn man freie CGI benutzen kann.

    http://www.htdig.org

    Selbstschreiben geht natürlich auch, wäre aber IMHO etwas mühsam.

    Gruesse,

    Bio

  3. Hi,

    kann man mit Perl eine Suchmaschine bauen, die nicht die eigene Homepage
    durchsucht, sondern externe Seiten? Also eine kleine Google Suchmaschine
    oder so ähnlich?

    FDSE ist in Perl, also Open Source. Viel Spaß beim Lesen.

    Viele Grüße
          Michael