Linkfehler
Reiner
- programmiertechnik
0 Julian Hofmann0 Reiner
0 Michael Schröpl0 Reiner
Hi,
ich arbeite gerade an einer Suchmaschine für Linkfehler (404).
Mich würde interessieren, wie gut das schon funktioniert.
Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?
Danke!
Reiner
Hallo Reiner,
Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?
Könnte eine Seite anbieten. Sind zwar keine Fehler versteckt, bei rund 3500 Links sind aber mit 100%er Sicherheit einige drin.
http://www.abizeitung.net/schulen.php3?rubrik=schule&alph_beginn=A&alph_ende=Z&num_beginn=0&num_ende=500
(Hoffe, dass Parameter keine Probleme bereiten)
Grüße aus Würzburg
Julian
P.S: Würde mich über eine Kopie der Auswertung freuen.
Hallo Julian,
Hat jemand eine größere Site, in der er mal ein ein paar Linkfehler "verstecken" könnte?
Könnte eine Seite anbieten. Sind zwar keine Fehler versteckt, bei rund 3500 Links sind aber mit 100%er Sicherheit einige drin.
bestimmt! :-)
http://www.abizeitung.net/schulen.php3?rubrik=schule&alph_beginn=A&alph_ende=Z&num_beginn=0&num_ende=500
(Hoffe, dass Parameter keine Probleme bereiten)
Nein, ich kann das parsen!
Grüße aus Würzburg
Julian
P.S: Würde mich über eine Kopie der Auswertung freuen.
Sende ich per Mail!
Reiner
Hi Reiner,
ich arbeite gerade an einer Suchmaschine für
Linkfehler (404).
meinst Du einen Links-Checker?
Mich würde interessieren, wie gut das schon
funktioniert.
Hast Du mal über Deine Testdaten Vergleichs-Produkte
laufen lassen? Beispielsweise Xenu:
http://home.snafu.de/tilman/xenulink.html
Viele Grüße
<img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael
Hallo Micha,
ich arbeite gerade an einer Suchmaschine für
Linkfehler (404).
meinst Du einen Links-Checker?
ja, habe mich wohl dämlich ausgedrückt! :-)
Mich würde interessieren, wie gut das schon
funktioniert.
Hast Du mal über Deine Testdaten Vergleichs-Produkte
laufen lassen? Beispielsweise Xenu:
Das kannte ich nicht!
Danke für den Tip!
Ich glaube aber, meine Maschine läuft jetzt astrein!
Das Ganze ist wirklich nicht trivial gewesen!!!
Besonders Probleme haben Redirects gemacht. Ich habe dann aber eine Quelle im Netz gefunden, die den entscheidenden Hinweis gab, solange eine Schleife zu durchlaufen, bis kein Redirekt mehr auftaucht.
Tja, ist sowas überhaupt interessant?
Ich habe auf allen möglichen Seiten Fehler gefunden!
Selbst auf bei großen Firmen wie Sie..ens, die ja CMS benutzen, was schon Fehler eindämmen sollte. Ich rede da dann nicht von ein paar Fehlern! :-)
Ich würde, wenn ich mir sicher bin, daß man das jem. zeigen kann, den Code gerne mal veröffentlichen!
Läuft über MySql und benutzt ein paar "Tricks" bzgl. Hashes und MD5 um das Ganze etwas zu beschleunigen bzw, den Traffic zu minimieren.
Mich würde interessieren, ob es interessant wäre, daraus ein Projekt zu machen, das als Cluster funktioniert (verteiltes Fehlersuchen).
Reiner
Hi Reiner,
Besonders Probleme haben Redirects gemacht.
Ich habe dann aber eine Quelle im Netz gefunden,
die den entscheidenden Hinweis gab, solange eine
Schleife zu durchlaufen, bis kein Redirekt mehr
auftaucht.
Das kann aber leicht eine Endlosschleife werden.
(Ich glaube, Xenu bricht ab einer bestimmten Anzahl
aufeinanderfolgender Redirects ab.)
Ich habe auf allen möglichen Seiten Fehler gefunden!
Tja, die Welt ist nicht valide ... ;-)
Selbst auf bei großen Firmen wie Sie..ens, die ja
CMS benutzen, was schon Fehler eindämmen sollte.
Diese Aussage ist ein schöner Lacherfolg.
Läuft über MySql und benutzt ein paar "Tricks" bzgl.
Hashes und MD5 um das Ganze etwas zu beschleunigen
bzw, den Traffic zu minimieren.
Und? Schlägt es Xenu im direkten Vergleich?
Oder linklint? Oder ...
Mich würde interessieren, ob es interessant wäre,
daraus ein Projekt zu machen, das als Cluster
funktioniert (verteiltes Fehlersuchen).
Wäre sicherlich spannend - vor allem zu klären, wie
man Mehrfachprüfungen sinnvoll verhindert, ohne dafür
synchronisiertes Schreiben in einen gemeinsamen Daten-
bereich zu benötigen.
(Idee: Über jeden URL eine Art Quersumme berechnen und
mit dieser den Task adressieren, der diesen URL zu
prüfen hat ...)
Viele Grüße
<img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael
Hallo Micha,
Besonders Probleme haben Redirects gemacht.
Ich habe dann aber eine Quelle im Netz gefunden,
die den entscheidenden Hinweis gab, solange eine
Schleife zu durchlaufen, bis kein Redirekt mehr
auftaucht.
Das kann aber leicht eine Endlosschleife werden.
(Ich glaube, Xenu bricht ab einer bestimmten Anzahl
aufeinanderfolgender Redirects ab.)
Ja, kann man ja einbauen! :-)
Ich habe auf allen möglichen Seiten Fehler gefunden!
Tja, die Welt ist nicht valide ... ;-)
Selbst auf bei großen Firmen wie Sie..ens, die ja
CMS benutzen, was schon Fehler eindämmen sollte.
Diese Aussage ist ein schöner Lacherfolg.
:-)
Läuft über MySql und benutzt ein paar "Tricks" bzgl.
Hashes und MD5 um das Ganze etwas zu beschleunigen
bzw, den Traffic zu minimieren.
Und? Schlägt es Xenu im direkten Vergleich?
Oder linklint? Oder ...
Xenu ist nicht gerade der Hit. Es produziert Fehler bei rel. links. Bspw. meckert es bei http://www.w3research.com an, daß es http://www.w3research.com/../img/transparent.gif nicht gibt. Allerdings ist das so gar nicht verlinkt, sondern mit /img/transparent.gif
Ich hatte damit zunächst auch Probleme, habe das aber mit URI(.pm) lösen können.
Was ganz nett ist, ist die Tatsache, daß das Teil mehrere Threads gleichzeitig abarbeitet.
Aber es ist nicht so sinnvoll gelöst, denn man kann (wieso so oft bei Windoof) nichts bzgl. Timeout einstellen.
Ich habe das seriell gelöst, d.h. ich habe eine DB mit mehreren Tabellen. Dazu gibt es allein drei Tabellen, die eine Rotation ermöglichen, etwa so:
Dann gibt es noch zwei Tabellen für "Content" und "Physical", die Title, Description und Keywords (und html-code) bzw. Linkauflösungen und Fehlermeldungen speichern.
Mich würde interessieren, ob es interessant wäre,
daraus ein Projekt zu machen, das als Cluster
funktioniert (verteiltes Fehlersuchen).
Wäre sicherlich spannend - vor allem zu klären, wie
man Mehrfachprüfungen sinnvoll verhindert, ohne dafür
synchronisiertes Schreiben in einen gemeinsamen Daten-
bereich zu benötigen.
(Idee: Über jeden URL eine Art Quersumme berechnen und
mit dieser den Task adressieren, der diesen URL zu
prüfen hat ...)
Quersumme? -> MD5
Das nutze ich schon, um Seiten zu erkennen.
Reiner
Hi Reiner,
Und? Schlägt es Xenu im direkten Vergleich?
Oder linklint? Oder ...
Xenu ist nicht gerade der Hit.
Es produziert Fehler bei rel. links.
Bspw. meckert es bei http://www.w3research.com an,
daß es
http://www.w3research.com/../img/transparent.gif
nicht gibt. Allerdings ist das so gar nicht
verlinkt, sondern mit /img/transparent.gif
Äh, ich habe im Quelltext dieser Seite mit Cntrl-F
folgende Stelle gefunden:
<img src="../img/transparent.gif" width="100%"
height="1" alt="" border="0">
Und ich habe ganz ausgezeichnete Erfahrungen mit Xenu.
Was ganz nett ist, ist die Tatsache, daß das Teil
mehrere Threads gleichzeitig abarbeitet.
Aber es ist nicht so sinnvoll gelöst, denn man kann
(wieso so oft bei Windoof) nichts bzgl. Timeout
einstellen.
Das macht der halt "irgendwie sinnvoll".
Ich arbeite meistens mit 30-50 threads, da stören mich
einzelne timeouts nicht besonders.
Bei einzelnen Browsern (Netscape 3, Opera) kann man
diese Task-Zahl ja auch konfigurieren.
(Idee: Über jeden URL eine Art Quersumme berechnen und
mit dieser den Task adressieren, der diesen URL zu
prüfen hat ...)
Quersumme? -> MD5
Ich meinte eher eine stinknormale dezimale Ziffern-
Quersumme bei beispielsweise 10 laufenden Tasks ...
Viele Grüße
<img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael
Hi Micha,
Und? Schlägt es Xenu im direkten Vergleich?
Oder linklint? Oder ...
zumindest habe ich (ohne lange zu rechnen!, könnten also auch mehr sein) Fehler auf Xenu gefunden:
###################################################
404er:
^^^^^^
http://home.snafu.de/tilman/xenulink.html http://www.lisatrust.net/stories/victims/lisa.htm
----------------------------------------------------
http://home.snafu.de/tilman/index.html http://www.thecorporation.com/icon/icon.html
----------------------------------------------------
http://home.snafu.de/tilman/index.html http://www.our-home.org/andybagley/
###################################################
503er:
^^^^^^
http://home.snafu.de/tilman/index.html http://www.entheta.org/entheta/go/go070571/go070571.html
----------------------------------------------------
http://home.snafu.de/tilman/index.html http://www.entheta.org/entheta/media/tv/ard/
----------------------------------------------------
http://home.snafu.de/tilman/index.html http://www.entheta.org/entheta/go/go.html
###################################################
Alles Gute,
Reiner
Hi Reiner,
zumindest habe ich (ohne lange zu rechnen!, könnten
also auch mehr sein) Fehler auf Xenu gefunden:
sag's Tilman Hausherr ... ich weiß nicht, wie gut
gepflegt seine Seiten ansonsten sind, aber daß mal
eine Handvoll fremder Sites verschwindet, dagegen
ist halt niemand gefeit.
Viele Grüße
<img src="http://www.schroepl.net/projekte/gzip_cnc/gzip_cnc.gif" border=0 alt=""> Michael