Gurke: Probleme beim Eintrag in Google

Hallo

ich habe Probleme mich bei Google eintragen zu lassen. Kann mir jemand sagen, auf was ich genau achten muss, resp. wie ich die Meta-Tags gestalten soll oder muss ich gar ein robot.txt schreiben?

Hat jemand Erfahrungen damit?

Danke!

Gurke

  1. hi

    ich habe Probleme mich bei Google eintragen zu lassen. Kann mir jemand sagen, auf was ich genau achten muss, resp. wie ich die Meta-Tags gestalten soll oder muss ich gar ein robot.txt schreiben?

    gute informationen über google / pagerank etc. findest du z.B. hier:
    http://www.drweb.de/google/index.shtml

    oder auch im archiv.

    so long
    ole
    (8-)>

  2. Hi Gurke,

    ich habe Probleme mich bei Google eintragen zu lassen.

    Hier: http://www.google.de/addurl.html

    Kann mir jemand sagen [...] wie ich die Meta-Tags gestalten soll

    Die kannst du, soweit es Google betrifft, vernachlässigen. Im Interesse der Indizierung durch andere Dienste kann es jedoch Sinn machen, die Meta-Tags mit sinnvollen Angaben zu versehen.

    oder muss ich gar ein robot.txt schreiben?

    Du kannst, musst aber nicht, es kommt darauf an, ob du bestimmte Verzeichnisse sperren willst oder bestimmte Suchrobots aussperren oder ähnliches. Auf die Indizierung an sich kannst du meines Wissens nach mit Hilfe der robots.txt keinen Einfluss nehmen. Inwieweit der Meta-Tag "revisit-after" tatsächlich respektiert wird, weiß ich nicht, in meinem Projekt steht 1 Monat, trotzdem besucht der Googlebot mindestens 1 mal pro Woche die Seite.

    Das einzige, was du nicht vernachlässigen darfst, ist der Inhalt, denn darauf kommt es an. Ach ja, und nicht verzagen, bis eine neu eingetragene Seite zum ersten mal vom Bot aufgesucht wird, können durchaus Monate vergehen.

    Viele Grüße
    Torsten

  3. Hallo Gurke,

    ich habe Probleme mich bei Google eintragen zu lassen.

    Bei Google kann man sich nicht eintragen lassen. Du kannst einen URL _vorschlagen_, den der Googlebot dann in den meisten Faellen auch besuchen kommt. Weitere Infos: http://www.google.com/intl/de/webmasters/1.html.

    Kann mir jemand sagen, auf was ich genau achten muss, resp. wie ich die Meta-Tags gestalten soll oder muss ich gar ein robot.txt schreiben?

    Google ignoriert (wie viele Suchmaschinen) die meisten Meta-Tags (description, keywords etc.).
    Eine robots.txt ist nicht noetig, es sei denn, Du willst bestimmte Dateien oder Verzeichnisse von der Indizierung ausschliessen.

    Wichtig ist der Inhalt der Seite, die logische Strukturierung, und - im Fall von Google - insbesondere, wieviele andere Seiten auf Deine Seite verweisen (siehe auch http://www.google.com/intl/de/why_use.html).

    Du kannst Dich ausserdem im Open Directory Project (http://dmoz.org/) eintragen lassen. Dies erhoeht die Chance, bei Google "zumindest irgendwo" gelistet zu werden, da Google's Webverzeichnis auf den Daten des ODP basiert.

    Beste Gruesse

    Jan

  4. Hallo,

    ich habe Probleme mich bei Google eintragen zu lassen.

    Du hast vermutlich nur zuwenig Geduld...
    Der Index von Google wird AFAIK grundsaetzlich monatlich erneuert.

    Kann mir jemand sagen, auf was ich genau achten muss, resp. wie ich die Meta-Tags gestalten soll

    Fuer Google sind die Meta-Tags AFAIK ueberfluessig.
    Bei andern Suchmaschinen wird z.T. die Description
    in den Suchresultaten angezeigt.

    oder muss ich gar ein robot.txt schreiben?

    Du musst nicht. Die robots.txt dient auch nur dazu, den Robots
    zu sagen, was sie _nicht_ spidern sollten.
    Google haelt sich uebrigens nicht daran, spidert die Seiten
    trotzdem und beachtet das Robots-Meta-Tag staerker als
    die robots.txt (was IMHO falsch ist).

    Ein Grund, trotzdem eine robots.txt zu machen, ist folgender:
    Die meisten Robots schauen zuerst mal, ob es eine robots.txt gibt.
    Wenn es keine gibt, kriegst Du 404-Eintraege in den Logfiles
    des Webservers. Falls Du das Error-Log moeglichst klein und
    uebersichtlich halten willst, kannst Du ja eine Alibi-robots.txt
    machen...

    Wie schon erwaehnt wurde, ist es auf jeden Fall zu empfehlen,
    die Seite bei http://www.dmoz.org/ anzumelden.
    Da dort jedoch ein Redaktor (Mensch) die Seiten anschauen muss,
    und da dies zumeist Freiwillige sind, kann es auch dort sehr
    lange dauern, bis die Seite aufgenommen wird.

    Gruesse,

    Thomas

    1. Hi Thomas,

      Die robots.txt dient auch nur dazu, den Robots
      zu sagen, was sie _nicht_ spidern sollten.
      Google haelt sich uebrigens nicht daran

      Das ist mir neu, denn laut Logfile auf meinem Webspace fragt der Googlebot die robots.txt ab und hält sich dann auch daran, indem er die (per disallow gesperrten) Unterverzeichnisse ignoriert.

      Viele Grüße
      Torsten

      1. hi,

        Das ist mir neu, denn laut Logfile auf meinem Webspace fragt der Googlebot die robots.txt ab und hält sich dann auch daran, indem er die (per disallow gesperrten) Unterverzeichnisse ignoriert.

        warum lässt du die hälfte von thomas' aussage unter den tisch fallen?

        er hat lediglich gesagt, dass google die robots.txt ignoriert, wenn in den meta tags widersprechende angaben enthalten sind - dann beachtet google letztere, obwohl eigentlich die angaben in der robots.txt stärkeres gewicht haben sollten.

        gruss,
        wahsaga

        1. Hallo,

          er hat lediglich gesagt, dass google die robots.txt ignoriert, wenn in den meta tags widersprechende angaben enthalten sind - dann beachtet google letztere, obwohl eigentlich die angaben in der robots.txt stärkeres gewicht haben sollten.

          Genau. Meine Aussage beruht uebrigens auf eigener Erfahrung.
          Ich hatte ein Unterverzeichnis in der robots.txt "gesperrt".
          Google ging trotzdem rein, sah, dass ich das META-Tag
          <META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">
          drin hatte, und indizierte die Seiten.

          (Es handelte sich um ein Testverzeichnis, das eine 1:1-Kopie
          eines anderen Verzeichnisses war. Deshalb auch die Meta-Tags.
          Google und andere Robots hatten dort IMHO wirklich nichts zu
          suchen, aber eben, sie halten sich nicht an die robots.txt...)

          Der einzige einigermassen wirksame Schutz vor Robots ist IMHO
          ein Verzeichnisschutz mit .htaccess u.s.w.
          Fuer "menschliche" Besucher kann man ja Benutzername/Kennwort
          offen lesbar auf der Seite angeben (oder sogar im Auth-Dialog).

          Gruesse,

          Thomas

          1. hi,

            Genau. Meine Aussage beruht uebrigens auf eigener Erfahrung.
            Ich hatte ein Unterverzeichnis in der robots.txt "gesperrt".
            Google ging trotzdem rein, sah, dass ich das META-Tag
            <META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">
            drin hatte, und indizierte die Seiten.

            habe ähnliche erfahrungen auch gemacht.
            mein impressum, auf eigener seite impressum.php direkt unterhalb der hauptdomain zu finden, habe ich von anfang an per robots.txt gesperrt, meta-tags mit angaben zum suchverhalten gar keine.

            trotzdem taucht die seite in google immer wieder mal auf, dann auch mal wieder eine zeitlang nicht. und das mit immer gleicher robots.txt ...

            gruss,
            wahsaga

            1. Genau. Meine Aussage beruht uebrigens auf eigener Erfahrung.
              Ich hatte ein Unterverzeichnis in der robots.txt "gesperrt".
              Google ging trotzdem rein, sah, dass ich das META-Tag
              <META NAME="ROBOTS" CONTENT="INDEX, FOLLOW">
              drin hatte, und indizierte die Seiten.
              habe ähnliche erfahrungen auch gemacht.

              Ich muss nochmal widersprechen. Nach den Einträgen in meiner Log-File geht der Googlebot nicht in gesperrten Unterverzeichnissen gucken, kann also dort auch keine Meta-Tags auslesen. Interessant in diesem Zusammenhang ist, dass der Googlebot manchmal erst nach bereits indizierten Seiten sucht und danach erst die robots.txt abfragt (erkennbar an der Reihenfolge meiner Logdateieinträge). Dies könnte eine mögliche Erklärung für das von euch beschriebene Phänomen sein.

              Weitere Informationen gibt es hier nachzulesen:
              http://www.google.de/webmasters/guidelines.html
              http://www.google.de/webmasters/3.html#B3 ff.

              Torsten

              1. Hallo,

                Ich muss nochmal widersprechen. Nach den Einträgen in meiner Log-File geht der Googlebot nicht in gesperrten Unterverzeichnissen gucken, kann also dort auch keine Meta-Tags auslesen.

                Hat er aber bei mir gemacht.
                Er folgte einem Link (uebrigens von hier - ich hatte ein CSS-Problem) direkt
                auf eine Seite in diesem Verzeichnis, das er eigentlich (gemaess robots.txt)
                haette ausser Acht lassen sollen. Und er indizierte die Seite. Seit ich es
                herausgefunden habe, habe ich einen Passwortschutz auf dem Verzeichnis,
                und gut ist.

                Gruesse,

                Thomas

                1. Moin Thomas,

                  Er folgte einem Link (uebrigens von hier - ich hatte ein CSS-Problem) direkt
                  auf eine Seite in diesem Verzeichnis, das er eigentlich (gemaess robots.txt)
                  haette ausser Acht lassen sollen.

                  Hm, das könnte bereits der Knackpunkt sein, denn wenn der Googlebot über eine Linkverfolgung direkt in dein Unterverzeichnis gecrawlt ist, kann er meine ich ja gar nicht die robots.txt im darüber liegenden Verzeichnis einlesen, sondern nur nach dieser Datei im verlinkten Verzeichnis suchen. Gibt es keine, indiziert er das Unterverzeichnis. Im übrigen hält sich Google leider sehr bedeckt mit Auskünften über die Konkurrenz zwischen robots.txt und den Meta-Tags.

                  Torsten

                  1. hi,

                    Hm, das könnte bereits der Knackpunkt sein, denn wenn der Googlebot über eine Linkverfolgung direkt in dein Unterverzeichnis gecrawlt ist, kann er meine ich ja gar nicht die robots.txt im darüber liegenden Verzeichnis einlesen, sondern nur nach dieser Datei im verlinkten Verzeichnis suchen.

                    es ist festgelegt, dass sich die robots.txt immer direkt im web root der domain befindet, also über http://www.domain.example/robots.txt abrufbar ist.
                    robots.txt in einzelnen unterverzeichnissen ist demnach per se ein zweckloses unterfangen.
                    auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.

                    gruss,
                    wahsaga

                    1. Hallo wahsaga,

                      es ist festgelegt, dass sich die robots.txt immer direkt im web root der domain befindet, also über http://www.domain.example/robots.txt abrufbar ist.

                      Das ist mir bekannt.

                      robots.txt in einzelnen unterverzeichnissen ist demnach per se ein zweckloses unterfangen.

                      Aus Sicht des Admins mit Sicherheit.

                      auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.

                      Jetzt wird's interessant, denn woher weiß er das? Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran? Oder fragt er am Ende die robots.txt nur dann ab, wenn er mit der Indizierung im obersten Verzeichnis anfängt, nicht jedoch bei Deeplinks in Unterverzeichnisse? Fragen über Fragen ...

                      Eines steht nach der bisherigen Diskussion zumindest aus meiner Sicht fest, nämlich die Tatsache, dass das Verhalten des Googlebots (wie auch jedes anderen Suchrobots) nicht mit Sicherheit vorhergesagt werden kann. Das ist doch auch schon was ...

                      Torsten

                      PS: beim Stöbern in meinen Logfiles ist mir noch aufgefallen, dass alle Robots nicht bei jeder Indizierung die robots.txt abfragen, obwohl sie vorhanden ist. Sehr seltsames Verhalten.

                      1. hi,

                        auch bei einer direkt verlinkten datei in unterverzeichnisxy _weiss_ ein robot, der sich an den standard hält also trotzdem, dass er im webroot der site nach der robots.txt zu suchen hat.
                        Jetzt wird's interessant, denn woher weiß er das?

                        woher weiss ein browser, dass <p> einen absatz kennzeichnet?

                        Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran?

                        ich kann nicht so ganz nachvollziehen, was dir unklar erscheint?
                        der RFC http://www.robotstxt.org/wc/norobots-rfc.txt sagt aus,

                        zitat anfang >>>

                        3.1 Access method

                        The instructions must be accessible via HTTP [2] from the site that
                           the instructions are to be applied to, as a resource of Internet
                           Media Type [3] "text/plain" under a standard relative path on the
                           server: "/robots.txt".

                        For convenience we will refer to this resource as the "/robots.txt
                           file", though the resource need in fact not originate from a file-
                           system.

                        Some examples of URLs [4] for sites and URLs for corresponding
                           "/robots.txt" sites:

                        http://www.foo.com/welcome.html http://www.foo.com/robots.txt

                        http://www.bar.com:8001/        http://www.bar.com:8001/robots.txt
                        <<< zitat ende <<<

                        entweder der spider kennt diesen standard, und hält sich dran - oder er tut es nicht. wenn er ihn aber kennt und sich dran hält, besteht zum "raten" m.e. nicht die geringste notwendigkeit ...

                        gruss,
                        wahsaga

                        1. Hallo nochmal,

                          Rät er, indem er den URI einfach nach der TLD "abschneidet"? Oder hängt er einfach bloß ein robots.txt dran?
                          ich kann nicht so ganz nachvollziehen, was dir unklar erscheint?

                          Dieser Auszug:

                          http://www.foo.com/welcome.html http://www.foo.com/robots.txt
                               http://www.bar.com:8001/        http://www.bar.com:8001/robots.txt

                          Gut, soweit klar, meine Vermutung bezog sich jedoch hierauf:

                          http://www.foo.com/german/willkommen.html -> http://www.foo.com/german/robots.txt oder
                          http://www.foo.com/german/willkommen.html -> http://www.foo.com/robots.txt

                          Ja, robots.txt muss im Wurzelverzeichnis liegen. Wie verhält sich ein Robot aber nun, wenn er über eine Linkverfolgung direkt in das Verzeichnis http://www.foo.com/german/willkommen.html gelangt? Wähnt er sich im Wurzelverzeichnis oder "rät" er das Wurzelverzeichnis, indem er nach der TLD abschneidet? _Das_ meinte ich mit Raten.

                          entweder der spider kennt diesen standard, und hält sich dran - oder er tut es nicht.

                          Ich weiß es beim Googlebot nicht und habe daraufhin lediglich Vermutungen aufgestellt, wie es zu dem von Thomas und dir beschriebenen Verhalten kommen könnte.

                          Grüße
                          Torsten

                          1. hi,

                            Ja, robots.txt muss im Wurzelverzeichnis liegen. Wie verhält sich ein Robot aber nun, wenn er über eine Linkverfolgung direkt in das Verzeichnis http://www.foo.com/german/willkommen.html gelangt? Wähnt er sich im Wurzelverzeichnis oder "rät" er das Wurzelverzeichnis, indem er nach der TLD abschneidet? _Das_ meinte ich mit Raten.

                            es ist klar _definiert_, dass DOMAIN.TLD SLASH robots.txt der URL für die robots.txt zu sein hat.
                            wenn sich der bot also in irgendeinem unterverzeichnis im root wähnt, ist er falsch programmiert ...

                            gruss,
                            wahsaga

        2. warum lässt du die hälfte von thomas' aussage unter den tisch fallen?
          er hat lediglich gesagt, dass google die robots.txt ignoriert, wenn in den meta tags widersprechende angaben enthalten sind - dann beachtet google letztere, obwohl eigentlich die angaben in der robots.txt stärkeres gewicht haben sollten.

          Ich habe es so verstanden, wie es aus meiner Antwort hervorging.

          Torsten