Peter: Crawler im Forum

HI @ll!

Hätte mal ne Frage zu Suchmaschinen-Crawlern. Der eine oder andere Webmaster/ForenAdmin würd sich vielleicht/sicherlich freuen aber mich nervt es ein wenig.

Ich kümmere mich um ein "Burning Board 2.3.6" und seit neustem wird das Forum täglich von über 100 Crawlern besucht die da fast 24 Stunden verweilen.

Mein Frage nun: Was wollen die den alle hier, reicht da nicht einer oder zwei nein es sind gleichzeitig 80 - 100 Stück im Forum unterwegs. Leider haben alle Crawler eine unterschiedliche IP "74.6.X.X", gibt es eine möglichkeit den Crawlern zu sagen, einer reicht mir o.ä.??? Die Möglichkeiten mit der "robots.txt" sind mir bekannt weiß aber nicht wie ich das Problem damit lösen kann.

MFG
Peter

  1. Hello,

    Die Möglichkeiten mit der "robots.txt" sind mir bekannt weiß aber nicht wie ich das Problem damit lösen kann.

    woran scheitert es denn? Verbiete einfach den Crawlern dein Forum abzurufen...

    MfG
    Rouven

    --
    -------------------
    "I wish it need not have happened in my time" - "So do I, and so do all who live to see such times. But that is not for them to decide. All we have to decide is what to do with the time that is given us."  --  J.R.R. Tolkien: "The Lord Of The Rings: The Fellowship Of The Ring"
    1. woran scheitert es denn? Verbiete einfach den Crawlern dein Forum abzurufen...

      N'abend Rouven!

      Na es scheitert daran das ich nichts dagegen hätte einen Crawler als BEsucher zu haben aber nicht gleich 80 - 100 gleischzeitig 24 Stunden am Tag!

      MFG
      Peter

      1. Hello,

        Na es scheitert daran das ich nichts dagegen hätte einen Crawler als BEsucher zu haben aber nicht gleich 80 - 100 gleischzeitig 24 Stunden am Tag!

        ne klar, aber woran scheitert es mit der robots.txt?

        MfG
        Rouven

        --
        -------------------
        Inter Arma Enim Silent Leges  --  Cicero
        1. Nabend!

          ne klar, aber woran scheitert es mit der robots.txt?

          Ich nehm' an er moechte gern Crawler auf seiner Seite haben. Nun ist ein Forum aber auch oft eine kleine Crawlerfalle und es sind ihm zuviele. Mit der robots.txt gibt generell nur alle oder keinen.

          Es gibt aber moeglichkeiten. Du kannst z.b. nur bestimmte Crawler zulassen oder abweisen. Und wenn Du es ganz verwegen magst und entsprechende Zugriffe hast kannst Du die robots.txt auch dynamisch generieren und mit einem internen Zaehler bestimmen wann Schluss ist.

          Bedenke aber: Keine crawler der Welt muss ich dan das Ding halten. Und wenn irgendwelche Spammer Dein forum benutzen um sich Mailadressen zu sammeln (oder was weiss ich) dann nuetzt dir die schoenste robots.txt nichts.

          Was fuer Crawler hast Du denn? Hinterlassen die keine Kennung?

          1. Was fuer Crawler hast Du denn? Hinterlassen die keine Kennung?

            HI!

            Das ist eben das verrückte, es sind alles Yahoo-Crawler (Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp))

            Geht auch erst seit einigen Tagen So:-(

            MFG
            Peter

            1. Na dann sag denen doch mal fuer ne Woche dass sie nix bei Dir verloren haben. Ausser du brauchst Yahoo ganz dringend.

              1. Na dann sag denen doch mal fuer ne Woche dass sie nix bei Dir verloren haben. Ausser du brauchst Yahoo ganz dringend.

                Habe denen heute schon ne Mail geschrieben. Aber warum hauen die da mit soviel Crawlern auf einer Seite rum. Aktuell sind immer noch 58 Stück online, 57 Yahoo und einer von google (Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html))

                MFG
                Jungesmedium

                PS: Die betroffene Seite ist übrigens http://www.australien-forum.de

                1. Du brauchst denen keine Mail schreiben. Wir reden hier ueber die Robots.txt. Damit erklaerst du den Yahoobots dass sie doch bitte nicht weitersuchen sollen. Ausser, wie gesagt, du brauchst nen Yahoobot.

                  1. Du brauchst denen keine Mail schreiben. Wir reden hier ueber die Robots.txt. Damit erklaerst du den Yahoobots dass sie doch bitte nicht weitersuchen sollen. Ausser, wie gesagt, du brauchst nen Yahoobot.

                    Ich weiß wovon du redest, ich hab aber leider keine Ahnung wie lange es dauert bis ein Crawler eine neu erstellte robots.tx akzeptiert. Ich habe heute Mittag mal eine online gestellt. 3 Studen später war es immer noch das selbe :-(

                    MFG
                    Peter

                    PS: Die robots.txt ist aber schon wieder gelöscht

      2. Na es scheitert daran das ich nichts dagegen hätte einen Crawler als BEsucher zu haben aber nicht gleich 80 - 100 gleischzeitig 24 Stunden am Tag!

        "80 - 100 gleischzeitig 24 Stunden am Tag" kann ja wohl nicht sein. Woher beziehst Du Deine Informationen?

        1. "80 - 100 gleischzeitig 24 Stunden am Tag" kann ja wohl nicht sein. Woher beziehst Du Deine Informationen?

          Schau auf australien-forum.de dann siehst es, musst dich halt schnell anmelden um das sehen zu können.

          1. "80 - 100 gleischzeitig 24 Stunden am Tag" kann ja wohl nicht sein. Woher beziehst Du Deine Informationen?

            Schau auf australien-forum.de dann siehst es, musst dich halt schnell anmelden um das sehen zu können.

            Gut, Du hast einen Nutzer mehr, wo kann ich jetzt die Crawleraktivitäten einsehen?

            1. Gut, Du hast einen Nutzer mehr, wo kann ich jetzt die Crawleraktivitäten einsehen?

              Na hier : http://www.australien-forum.de/wbb23/wiw.php

              1. Gut, Du hast einen Nutzer mehr, wo kann ich jetzt die Crawleraktivitäten einsehen?

                Na hier : http://www.australien-forum.de/wbb23/wiw.php

                http://www.australien-forum.de/wbb23/wiw.php

                Meinst Du die Gäste? Müssen das alles zwingend Crawler sein?

                1. Meinst Du die Gäste? Müssen das alles zwingend Crawler sein?

                  Ah so, du siehst scheinbar IP und Browser nicht :-(

                  OK, hier ein aktueller Screenshot: http://www.australien-forum.de/crawler.JPG

                  1. Meinst Du die Gäste? Müssen das alles zwingend Crawler sein?

                    Ah so, du siehst scheinbar IP und Browser nicht :-(

                    OK, hier ein aktueller Screenshot: http://www.australien-forum.de/crawler.JPG

                    Wieviele Zugriffe haben die denn so täglich und wie lange bleiben die Nutzer in der Liste, wenn sie einen Zugriff gehabt haben?

                    1. Wieviele Zugriffe haben die denn so täglich und wie lange bleiben die Nutzer in der Liste, wenn sie einen Zugriff gehabt haben?

                      Die Liste wird ja permanent aktualisiert. Spätestens wenn der User 10 Minuten inaktiv war verschwindet er aus der Liste. Also die Crawler sind sin ca. 7 Tage 24 täglich online.

                      Hast du ne Idee woran es liegen kann??? Am Forum auf jeden FALL nicht, habe gerade die Server-Logs gecheckt da steht ähnliches drin.

                      MFG
                      Peter

                      1. Hello,

                        Hast du ne Idee woran es liegen kann??? Am Forum auf jeden FALL nicht, habe gerade die Server-Logs gecheckt da steht ähnliches drin.

                        na ja, sagen wir mal so: Irgendwann ist mal ein Crawler auf deine Seite gestoßen, hat nach der robots.txt geschaut und keine gefunden. Daraufhin hat er sich die Seite angeschaut und alle Links, ggf. auch img-Tags eingesammelt und an Yahoo gemeldet. Mit jedem Link macht er irgendwann das Selbe. Gleichzeitig kommt der Bot wieder und indiziert nun tatsächlich die Seite und ggf. die Bilder. Aber eben nicht ein Bot für alle Seiten, sondern immer wechselnde "wer gerade frei ist" schnappen sich eine einzelne hinterlegte Datei.
                        Die tun am Ende vmtl. gar nichts schlimmes, es dürfte, wenn der Crawler halbwegs clever ist, nicht viel mehr sein, als ein Nutzer, der einmal alle deine Seiten aufruft.

                        MfG
                        Rouven

                        --
                        -------------------
                        Unser Problem ist, dass wir eine Demokratie entwickelt haben, was nicht immer der richtige Weg ist  --  Bernie Ecclestone zu den lästigen Diskussionen um Regeländerungen in der Formel 1
                        1. Mahlzeit!

                          Die tun am Ende vmtl. gar nichts schlimmes, es dürfte, wenn der Crawler halbwegs clever ist, nicht viel mehr sein, als ein Nutzer, der einmal alle deine Seiten aufruft.

                          Das kommt drauf an... Hier im Forum z.b. Koennte ein Crawler auf die Idee kommen alle Links in einem Thread zu verfolgen und somit auch auf schon gescannte Threads stossen, wo Links drin sind die ihn wieder auf altbekanntes fuehren... Ich weiss nicht wie Yahoo seine Crawler programmiert hat, aber einige gehen bestimmten Links schon gar nicht mehr nach, weil sie sich sonst verlaufen wuerden und sogar Endlosschleifen ziehen...

                          1. Hallo Steel,

                            Das kommt drauf an... Hier im Forum z.b. Koennte ein Crawler auf die Idee kommen alle Links in einem Thread zu verfolgen und somit auch auf schon gescannte Threads stossen, wo Links drin sind die ihn wieder auf altbekanntes fuehren... Ich weiss nicht wie Yahoo seine Crawler programmiert hat, aber einige gehen bestimmten Links schon gar nicht mehr nach, weil sie sich sonst verlaufen wuerden und sogar Endlosschleifen ziehen...

                            Jeder Crawler wird irgendwo eine Liste aller bereits besuchten Seiten speichern. Problematisch wird es erst, wenn er auf irgendwelche kaputten Scripte trifft, die Endlosschleifen mit gleichen Seiten unter immer wieder unterschiedlichen URLs produzieren.

                            Schöne Grüße,

                            Johannes

                            1. heyho!

                              Jeder Crawler wird irgendwo eine Liste aller bereits besuchten Seiten speichern. Problematisch wird es erst, wenn er auf irgendwelche kaputten Scripte trifft, die Endlosschleifen mit gleichen Seiten unter immer wieder unterschiedlichen URLs produzieren.

                              Deshalb sind Adressen wie forum.php?id=xxx fuer crawler boese. Stell dir z.b. das Selfhtml Forum vor. In einer Ansicht die alle Antworten zeigt. (wie z.b. bei der Archivsuche) Man sieht einen ellenlangen Text mit lauter Links. die sind auch alle unterschiedlich fuehren aber doch nur zu Inhalten, die man gerade schon hatte. Je nach Software (vielelicht ist eine ID ne ganze Rubrik, ne andere nur ein einzelner Beitrag in dieser) kommt der arme Crawler teilweise ordentlich ins schwitzen und zieht auch den ein oder enderen unnoetigen Kreis.

                              Eine fuer suchmaschinen optimale Seite hat deshalb auch soetwas nicht, sondern besitzt schoene lesbare URLS. Was fuer Menschen gut ist, ist auch fuer die meisten Crawler nicht schlecht. Letztere finden allerdings auch Unterverzeichnisse die /001B58807M06 heissen genauso toll wie ein Mensch das Verzeichnis /newsvom20juni.

                              1. @King^Lully, Rouven, Steel, Johannes Zeller!

                                Hi und Danke für eure Antworten!

                                Ich werde das jetzt einfach mal so belassen wie es ist. Ich glaub nämlich zu wissen warum da soviele solange sind. Jaaaaa ich habe einen Bug in einer PHP-Seite.

                                Ich werde den demnächst fixen, eilig habe ich es aber nicht, da es der google-crawler ja sowie checkt und zum anderen weil das Forum in den letzten 36 Stunden auf Platz 6 bei Yahoo gekommen ist und das bei dem Suchbegriff "Australien" :-)

                                Danke und MFG
                                PEter

                      2. Die Liste wird ja permanent aktualisiert. Spätestens wenn der User 10 Minuten inaktiv war verschwindet er aus der Liste. Also die Crawler sind sin ca. 7 Tage 24 täglich online.

                        Du solltest Dir da keine Sorgen machen, das scheint mir alles recht normal zu sein.

                        Das genutzte Forum habe ich schon mal irgendwo gesehen, das ist wohl StandardSW und kann vermutlich auch fleissig konfiguriert werden.

                        Versuche einfach die Gäaste aus der Liste rauszukriegen, die haben ja auch keinen richtigen Informationswert. Wie das geht? Doku oder Forums-Community fragen.