Dr.Colossos: Website Crawler [revisited]

Hi,

wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

Um's auf den Punkt zu bringen, es handelt sich um die Job-Plattform http://www.job-world.de/

Deren robots.txt sieht so aus:

robots.txt zu www.jobworld.de

User-agent: *
Disallow: /cgi-bin/
Disallow: /cgi-perl/jobRegio
Disallow: /cgi-perl/select

Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]

Nun frag ich mich, darf ich die Ergebnisseite auslesen?

Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?

Danke sehr!

  1. Hi,

    Disallow: /cgi-perl/select

    Die Seite in denen die eigentlichen Inserate stehen hat diese Adresse:
    http://www.job-world.de/cgi-perl/selectJWorld?plz=9_BY&[... weitere Suchparameter ...]

    Nun frag ich mich, darf ich die Ergebnisseite auslesen?

    Heißt "/cgi-perl/select" soviel wie "/cgi-perl/select*", d.h. alles was "/cgi-perl/select" als Prefix hat (somit auch "meine" Ergebnisseite), oder ist wirklich nur DAS Verzeichnis "/cgi-perl/select/" gemeint?

    Ersteres.
    http://www.robotstxt.org/orig.html:
    "Disallow
    The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html [...]"

    MfG ChrisB

    --
    „This is the author's opinion, not necessarily that of Starbucks.“
    1. Danke.

      Hab auf Wikipedia (deutsch) geschaut und dort die Wildcards (*) gesehen ... auf http://www.robotstxt.org hätt ich wohl besser auch schauen sollen.

      Danke für den Link!

      Was mach ich jetzt außer dumm aus der Wäsche schauen? Qualifiziert sich mein PHP Script (Snoopy.class.php, cURL etc.) ein robot, oder darf ich das trotzdem auslesen?

      Wohl letzteres, nehm ich an ...

      Wie verbrecherisch bin ich wenn ich's trotzdem auslesen würde?

      Ich habe leider nur eine deutsch-sprachige Platform gefunden die dafür eine API anbietet ...

      Danke nochmals, auch für weiteren Input.

      1. Hallo!

        Wie verbrecherisch bin ich wenn ich's trotzdem auslesen würde?

        Kommt wohl darauf an, was du mit den Daten vor hast...
        Sobald du die entsprechenden Seiten mit dem Browser aufrufst, "liest" du die Daten ja auch aus...

        Viele Grüße
        Thorsten

        --
        ie:( fl:( br:< va:) ls:& fo:) rl:° n4:° ss:) de:> js:| ch:? sh:( mo:| zu:)
        1. Hi,

          jaja, schon klar.

          Naja, ich, d.h. mein Kunde, möchte auf dieser (und/oder anderen) Job-Seite(n) eine eigene Suche aufbauen, d.h. effizient Gesuche durchforsten.

          D.h. anders als mit'm Browser, halt viele Seiten gleichzeitig lesen und parsen.

          Speichern oder indizieren würd ich sie nicht, lediglich einlesen und auswerten ob eingegebene Suchbegriffe vorhanden sind.

          Grundgedanke war das für viele verschiedene Seiten zu machen (gibts ja wie Sand am mehr), aber das ist eine SEHR zeitintensive Arbeit, da natürlich jede Seite ein anderers User-Interface hat, dass verschieden angesteuert werden müsste.

          Daher hätt ich mich jetzt mal (testweise) auf job-world gestürzt, da es eine Meta-Scuhmaschine ist ...

          Ich habe halt echt keine Ahnung wo da die Grenzen des erlaubten sind ...

          1. Hi,

            Ich habe halt echt keine Ahnung wo da die Grenzen des erlaubten sind ...

            Informationen sind das Kapital dieser Seiten - deshalb wirst du wohl davon ausgehen koennen, dass sie dieses auch schuetzen wollen.

            Zum einen mal technisch - wenn du immer wiederholt Anfragen von deinem Server aus stellst, wird das als Muster in den Logfiles sicher bald auffaellig werden, und dir der Zugriff abgedreht werden.

            Und wenn das erst mal aufgefallen ist, koennten sie auch versuchen, dich dann rechtlich zu belangen - wegen des Verstosses geben ihre AGB o.ae., die solch einen Zugriff vermutlich zu untersagen versuchen.

            Naja, ich, d.h. mein Kunde, möchte auf dieser (und/oder anderen) Job-Seite(n) eine eigene Suche aufbauen, d.h. effizient Gesuche durchforsten.

            Dann sollte man sich mit den Anbietern in Verbindung setzen, ob und ggf. zu welchen Konditionen sie solche Zugriffe gestatten wuerden; und ob sie ggf. auch eine API dafuer anbieten, damit man nicht aufwendig HTML-Ergebnisseiten parsen muss.

            MfG ChrisB

            --
            „This is the author's opinion, not necessarily that of Starbucks.“
            1. Hi,

              Informationen sind das Kapital dieser Seiten - deshalb wirst du wohl davon ausgehen koennen, dass sie dieses auch schuetzen wollen.

              Mmmh, bin (leider) ganz deiner Meinung.

              Zum einen mal technisch - wenn du immer wiederholt Anfragen von deinem Server aus stellst, wird das als Muster in den Logfiles sicher bald auffaellig werden, und dir der Zugriff abgedreht werden.

              Mmmh, bin (leider) wieder ganz deiner Meinung.

              Und wenn das erst mal aufgefallen ist, koennten sie auch versuchen, dich dann rechtlich zu belangen - wegen des Verstosses geben ihre AGB o.ae., die solch einen Zugriff vermutlich zu untersagen versuchen.

              Dann sollte man sich mit den Anbietern in Verbindung setzen, ob und ggf. zu welchen Konditionen sie solche Zugriffe gestatten wuerden; und ob sie ggf. auch eine API dafuer anbieten, damit man nicht aufwendig HTML-Ergebnisseiten parsen muss.

              Tja, ob er für den Service zahlen würde ... er will ja Zeit/Geld sparen mit dem Automatismus.

              Danke derweil!

              1. Mahlzeit,

                Tja, ob er für den Service zahlen würde ... er will ja Zeit/Geld sparen mit dem Automatismus.

                Dann solltest du ihm klarmachen, dass es nicht wirklich nett ist, auf Kosten anderer selbst mehr Geld zu verdienen. Immerhin nutzt er die Arbeit (und die dadurch entstehenden Kosten) anderer.
                Was würde er sagen, wenn ich dann seine Seite nehme und einfach für meine Zwecke nutze, nur um mir Arbeit und Kosten zu sparen? Wäre er damit einverstanden?

                1. Hi,

                  Dann solltest du ihm klarmachen, dass es nicht wirklich nett ist, auf Kosten anderer selbst mehr Geld zu verdienen. Immerhin nutzt er die Arbeit (und die dadurch entstehenden Kosten) anderer.
                  Was würde er sagen, wenn ich dann seine Seite nehme und einfach für meine Zwecke nutze, nur um mir Arbeit und Kosten zu sparen? Wäre er damit einverstanden?

                  Nein nein, das hast du faslch verstanden - das war keine Aussage von ihm, noch hab ich ihn zitiert - das ist eine Feststellung von mir.

                  Er muss mich für die Programmierung bezahlen, und dann noch die Gebühr für die Datennutzung mehrerer Anbieter ... daher MEINE Vermutung dass es dann doch anders gehen muss ... notfalls halt weiterhin manuell.

                  Danke

                  1. Mahlzeit,

                    Nein nein, das hast du faslch verstanden - das war keine Aussage von ihm, noch hab ich ihn zitiert - das ist eine Feststellung von mir.

                    Ok, das hab ich dann falsch verstanden.

                    Er muss mich für die Programmierung bezahlen, und dann noch die Gebühr für die Datennutzung mehrerer Anbieter ...

                    Dann wäre doch die beste Adresse der Anbieter selbst.

                    Ich würde diesen Anbietern gleich ein Angebot unterbreiten, ihnen, falls nicht vorhanden, eine API zu bauen. Damit ziehst du dir gleich neue Kunden und kannst den aktuelen Kunden zufrieden stellen.

                    1. Hi,

                      Ich würde diesen Anbietern gleich ein Angebot unterbreiten, ihnen, falls nicht vorhanden, eine API zu bauen. Damit ziehst du dir gleich neue Kunden und kannst den aktuelen Kunden zufrieden stellen.

                      Hehe, ja, wäre fein. Aber für sowas habe ich eh nicht die Zeit. Und ich denke viele Web-Anbieter wollen garkeine API für ihre Services ... warum hat wohl Google seinen SOAP-Service eingestellt? Genau, weil die SOAP-Nutzer nicht auf ihrer Seite sind, sehen keine Werbung, sehen kein Google-Logo.

                      Eine Jobvermittlungsseite bietet ihren Dienst wohl nicht aus Nächstenliebe heraus an, um Menschen ohne Job mit Jobs zu versorgen, sondern die eigenen Taschen mit Werbeeinnahmen zu füllen (hört sich evtl. zynisch an, is aber ned so gemeint - that's life).

                      Danke

          2. Und wenn das erst mal aufgefallen ist, koennten sie auch versuchen, dich dann rechtlich zu belangen - wegen des Verstosses geben ihre AGB o.ae., die solch einen Zugriff vermutlich zu untersagen versuchen.

            Dieser Versuch wäre wahrscheinlich zum Scheitern verurteilt, da bei frei zugänglichen Seiten vermutlich keine AGB o.ä. akzeptiert werden mußten.

            Je nach Art der Nutzung, könnte das aber ein Verstoß gegen das Urheberrecht am Datenbankwerk (§ 4 UrhG) oder, wenn es kein Werk ist, könnte es je nach Art und Umfang der Nutzung immer noch ein Verstoß gegen das Recht des Datenbankherstellers (§ 87a - e UrhG) sein.

  2. hi $name,

    wie bereits hier angegeben aber leider bereis im Archiv, möchte ich eine Website programmatisch auslesen und weiterverarbeiten.

    das auslesen ist IMO nicht das problem sondern das weiterverarbeiten!

    Deren robots.txt sieht so aus:

    robots.txt zu www.jobworld.de

    nun jaaaa, die robots.txt ist ja nur eine freundliche bitte nicht zu crawlen...

    gruss
    shadow

    --
    Vor dem Parser und auf hoher See sind wir allein in Gottes Hand