Reiner: Linkfehler

Hi,

ich arbeite gerade an einer Suchmaschine für Linkfehler (404).
Mich würde interessieren, wie gut das schon funktioniert.
Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?

Danke!

Reiner

  1. Hallo Reiner,

    Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?

    Könnte eine Seite anbieten. Sind zwar keine Fehler versteckt, bei rund 3500 Links sind aber mit 100%er Sicherheit einige drin.

    http://www.abizeitung.net/schulen.php3?rubrik=schule&alph_beginn=A&alph_ende=Z&num_beginn=0&num_ende=500
    (Hoffe, dass Parameter keine Probleme bereiten)

    Grüße aus Würzburg
    Julian

    P.S: Würde mich über eine Kopie der Auswertung freuen.

    1. Hallo Julian,

      Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?

      Könnte eine Seite anbieten. Sind zwar keine Fehler versteckt, bei rund 3500 Links sind aber mit 100%er Sicherheit einige drin.

      bestimmt! :-)

      http://www.abizeitung.net/schulen.php3?rubrik=schule&alph_beginn=A&alph_ende=Z&num_beginn=0&num_ende=500
      (Hoffe, dass Parameter keine Probleme bereiten)

      Nein, ich kann das parsen!

      Grüße aus Würzburg
      Julian

      P.S: Würde mich über eine Kopie der Auswertung freuen.

      Sende ich per Mail!

      Reiner

  2. Hi Reiner,

    ich arbeite gerade an einer Suchmaschine für
    Linkfehler (404).

    meinst Du einen Links-Checker?

    Mich würde interessieren, wie gut das schon
    funktioniert.

    Hast Du mal über Deine Testdaten Vergleichs-Produkte
    laufen lassen? Beispielsweise Xenu:

    http://home.snafu.de/tilman/xenulink.html

    Viele Grüße
    <img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael

    1. Hallo Micha,

      ich arbeite gerade an einer Suchmaschine für
      Linkfehler (404).

      meinst Du einen Links-Checker?

      ja, habe mich wohl dämlich ausgedrückt! :-)

      Mich würde interessieren, wie gut das schon
      funktioniert.

      Hast Du mal über Deine Testdaten Vergleichs-Produkte
      laufen lassen? Beispielsweise Xenu:

      http://home.snafu.de/tilman/xenulink.html

      Das kannte ich nicht!
      Danke für den Tip!
      Ich glaube aber, meine Maschine läuft jetzt astrein!
      Das Ganze ist wirklich nicht trivial gewesen!!!
      Besonders Probleme haben Redirects gemacht. Ich habe dann aber eine Quelle im Netz gefunden, die den entscheidenden Hinweis gab, solange eine Schleife zu durchlaufen, bis kein Redirekt mehr auftaucht.

      Tja, ist sowas überhaupt interessant?
      Ich habe auf allen möglichen Seiten Fehler gefunden!
      Selbst auf bei großen Firmen wie Sie..ens, die ja CMS benutzen, was schon Fehler eindämmen sollte. Ich rede da dann nicht von ein paar Fehlern! :-)

      Ich würde, wenn ich mir sicher bin, daß  man das jem. zeigen kann, den Code gerne mal veröffentlichen!
      Läuft über MySql und benutzt ein paar "Tricks" bzgl. Hashes und MD5 um das Ganze etwas zu beschleunigen bzw, den Traffic zu minimieren.
      Mich würde interessieren, ob es interessant wäre, daraus ein Projekt zu machen, das als Cluster funktioniert (verteiltes Fehlersuchen).

      Reiner

      1. Hi Reiner,

        Besonders Probleme haben Redirects gemacht.
        Ich habe dann aber eine Quelle im Netz gefunden,
        die den entscheidenden Hinweis gab, solange eine
        Schleife zu durchlaufen, bis kein Redirekt mehr
        auftaucht.

        Das kann aber leicht eine Endlosschleife werden.
        (Ich glaube, Xenu bricht ab einer bestimmten Anzahl
        aufeinanderfolgender Redirects ab.)

        Ich habe auf allen möglichen Seiten Fehler gefunden!

        Tja, die Welt ist nicht valide ... ;-)

        Selbst auf bei großen Firmen wie Sie..ens, die ja
        CMS benutzen, was schon Fehler eindämmen sollte.

        Diese Aussage ist ein schöner Lacherfolg.

        Läuft über MySql und benutzt ein paar "Tricks" bzgl.
        Hashes und MD5 um das Ganze etwas zu beschleunigen
        bzw, den Traffic zu minimieren.

        Und? Schlägt es Xenu im direkten Vergleich?
        Oder linklint? Oder ...

        Mich würde interessieren, ob es interessant wäre,
        daraus ein Projekt zu machen, das als Cluster
        funktioniert (verteiltes Fehlersuchen).

        Wäre sicherlich spannend - vor allem zu klären, wie
        man Mehrfachprüfungen sinnvoll verhindert, ohne dafür
        synchronisiertes Schreiben in einen gemeinsamen Daten-
        bereich zu benötigen.
        (Idee: Über jeden URL eine Art Quersumme berechnen und
        mit dieser den Task adressieren, der diesen URL zu
        prüfen hat ...)

        Viele Grüße
        <img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael

        1. Hallo Micha,

          Besonders Probleme haben Redirects gemacht.
          Ich habe dann aber eine Quelle im Netz gefunden,
          die den entscheidenden Hinweis gab, solange eine
          Schleife zu durchlaufen, bis kein Redirekt mehr
          auftaucht.

          Das kann aber leicht eine Endlosschleife werden.
          (Ich glaube, Xenu bricht ab einer bestimmten Anzahl
          aufeinanderfolgender Redirects ab.)

          Ja, kann man ja einbauen! :-)

          Ich habe auf allen möglichen Seiten Fehler gefunden!

          Tja, die Welt ist nicht valide ... ;-)

          Selbst auf bei großen Firmen wie Sie..ens, die ja
          CMS benutzen, was schon Fehler eindämmen sollte.

          Diese Aussage ist ein schöner Lacherfolg.

          :-)

          Läuft über MySql und benutzt ein paar "Tricks" bzgl.
          Hashes und MD5 um das Ganze etwas zu beschleunigen
          bzw, den Traffic zu minimieren.

          Und? Schlägt es Xenu im direkten Vergleich?
          Oder linklint? Oder ...

          Xenu ist nicht gerade der Hit. Es produziert Fehler bei rel. links. Bspw. meckert es bei http://www.w3research.com an, daß es http://www.w3research.com/../img/transparent.gif nicht gibt. Allerdings ist das so gar nicht verlinkt, sondern mit /img/transparent.gif
          Ich hatte damit zunächst auch Probleme, habe das aber mit URI(.pm) lösen können.
          Was ganz nett ist, ist die Tatsache, daß das Teil mehrere Threads gleichzeitig abarbeitet.
          Aber es ist nicht so sinnvoll gelöst, denn man kann (wieso so oft bei Windoof) nichts bzgl. Timeout einstellen.
          Ich habe das seriell gelöst, d.h. ich habe eine DB mit mehreren Tabellen. Dazu gibt es allein drei Tabellen, die eine Rotation ermöglichen, etwa so:

          • hole aus "Fetch"
          • löse Links auf und speicher in "Wait"
          • wenn link nicht zum Host gehört oder Rotationszahl größer X, speichere in "Stop"

          Dann gibt es noch zwei Tabellen für "Content" und "Physical", die Title, Description und Keywords (und html-code) bzw. Linkauflösungen und Fehlermeldungen speichern.

          Mich würde interessieren, ob es interessant wäre,
          daraus ein Projekt zu machen, das als Cluster
          funktioniert (verteiltes Fehlersuchen).

          Wäre sicherlich spannend - vor allem zu klären, wie
          man Mehrfachprüfungen sinnvoll verhindert, ohne dafür
          synchronisiertes Schreiben in einen gemeinsamen Daten-
          bereich zu benötigen.
          (Idee: Über jeden URL eine Art Quersumme berechnen und
          mit dieser den Task adressieren, der diesen URL zu
          prüfen hat ...)

          Quersumme? -> MD5
          Das nutze ich schon, um Seiten zu erkennen.

          Reiner

          1. Hi Reiner,

            Und? Schlägt es Xenu im direkten Vergleich?
            Oder linklint? Oder ...
            Xenu ist nicht gerade der Hit.
            Es produziert Fehler bei rel. links.
            Bspw. meckert es bei http://www.w3research.com an,
            daß es
                http://www.w3research.com/../img/transparent.gif
            nicht gibt. Allerdings ist das so gar nicht
            verlinkt, sondern mit /img/transparent.gif

            Äh, ich habe im Quelltext dieser Seite mit Cntrl-F
            folgende Stelle gefunden:

            <img src="../img/transparent.gif" width="100%"
                     height="1" alt="" border="0">

            Und ich habe ganz ausgezeichnete Erfahrungen mit Xenu.

            Was ganz nett ist, ist die Tatsache, daß das Teil
            mehrere Threads gleichzeitig abarbeitet.
            Aber es ist nicht so sinnvoll gelöst, denn man kann
            (wieso so oft bei Windoof) nichts bzgl. Timeout
            einstellen.

            Das macht der halt "irgendwie sinnvoll".
            Ich arbeite meistens mit 30-50 threads, da stören mich
            einzelne timeouts nicht besonders.

            Bei einzelnen Browsern (Netscape 3, Opera) kann man
            diese Task-Zahl ja auch konfigurieren.

            (Idee: Über jeden URL eine Art Quersumme berechnen und
            mit dieser den Task adressieren, der diesen URL zu
            prüfen hat ...)
            Quersumme? -> MD5

            Ich meinte eher eine stinknormale dezimale Ziffern-
            Quersumme bei beispielsweise 10 laufenden Tasks ...

            Viele Grüße
            <img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael

        2. Hi Micha,

          Und? Schlägt es Xenu im direkten Vergleich?
          Oder linklint? Oder ...

          zumindest habe ich (ohne lange zu rechnen!, könnten also auch mehr sein)  Fehler auf Xenu gefunden:
          ###################################################
          404er:
          ^^^^^^
          http://home.snafu.de/tilman/xenulink.html  http://www.lisatrust.net/stories/victims/lisa.htm
          ----------------------------------------------------
          http://home.snafu.de/tilman/index.html  http://www.thecorporation.com/icon/icon.html
          ----------------------------------------------------
          http://home.snafu.de/tilman/index.html  http://www.our-home.org/andybagley/
          ###################################################
          503er:
          ^^^^^^
          http://home.snafu.de/tilman/index.html  http://www.entheta.org/entheta/go/go070571/go070571.html
          ----------------------------------------------------
          http://home.snafu.de/tilman/index.html  http://www.entheta.org/entheta/media/tv/ard/
          ----------------------------------------------------
          http://home.snafu.de/tilman/index.html  http://www.entheta.org/entheta/go/go.html
          ###################################################

          Alles Gute,
          Reiner

          1. Hi Reiner,

            zumindest habe ich (ohne lange zu rechnen!, könnten
            also auch mehr sein) Fehler auf Xenu gefunden:

            sag's Tilman Hausherr ... ich weiß nicht, wie gut
            gepflegt seine Seiten ansonsten sind, aber daß mal
            eine Handvoll fremder Sites verschwindet, dagegen
            ist halt niemand gefeit.

            Viele Grüße
            <img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael