Masin Al-Dujaili: Google -- oder wie kommen Besucher auf meine Seiten

Hallo Forum,

schon seit geraumer Zeit --naja, einen Monat-- frage ich mich doch, warum Google meine Website nicht in die Suchergebnisse aufnehmen möchte. Die Seiten stellen eigentlich keine Maschine vor große Hindernisse, werden automatisch generiert, erhalten per mod_rewrite beschreibende Seitennamen, haben beschreibende Seitentitel, sind XHTML 1.0 transitional usw.

Ich habe Google meine Seite gemeldet sogar mit einer Sitemap beglückt. Sicherlich könnte man an der einen oder anderen Stelle noch feilen, aber Seiten von geringerer Qualität findet man auch zuhauf in den Ergebnissen.

Beim Lesen der Zugriffsstatistiken konnte ich auch erkennen, daß der Googlebot in den letzten zwei Monate schon mehrmals da war. Die Website selbst ist seit ca. drei bis vier Monaten online. Ich habe schon an verschiedenen Stellen im Netz nach Antworten gesucht, auch hier im Archiv, aber irgendwie will sich mir kein plausibler Grund erschließen.

Meine einzige Vermutung ist bislang, daß auf der Subdomain www bislang nichts zu finden ist außer der Begrüßung durch ein frischinstalliertes CMS und Google das als Anlaß nimmt, erstmal die Seite aus den Suchergebnissen rauszuhalten.

Weiß jemand vielleicht genaueres zu dem Thema?

Liebe Grüße aus Berlin-Charlottenburg
Masin
Homepage unserer Liverollenspielrunde

  1. Hallo Masin Al-Dujaili,

    die Seite ist doch da:
    http://www.google.de/search?q="larp-bb.de"&start=0&start=0&ie=utf-8&oe=utf-8&client=firefox-a&rls=org.mozilla:de:official

    Oder erwartest du, das du bei "Live-Rollenspiel" unter die Top-Ten kommst?

    Gruß, Jürgen

    1. Hallo Jürgen,

      die Seite ist doch da:
      http://www.google.de/search?q="larp-bb.de"&start=0&start=0&ie=utf-8&oe=utf-8&client=firefox-a&rls=org.mozilla:de:official

      jaaaaa ... larp-bb.de aber eben nicht gio.larp-bb.de

      Oder erwartest du, das du bei "Live-Rollenspiel" unter die Top-Ten kommst?

      Ach, wünschenswert wäre das schon, aber wohl nicht realistisch :-)

      LG
      Masin

      1. Hi,

        Du bzw. der Server bist es auch selbst en wenig schuld:

        http://gio.larp-bb.de/
        GET / HTTP/1.1
        HTTP/1.x 302 OK
        Location: http://gio.larp-bb.de/StartSeite

        Wieso soll 302 "OK" sein? Warum der Statuscode für eine temporäre Weiterleitung? Und warum überhaupt eine Weiterleitung?
        Du solltest mod_rewrite nicht für obskure Weiterleitungen verwenden, sondern die Inhalte unter den gewünschten Adressen zur Verfügung stellen.

        Außerdem lieferst Du die Seiten mit ständig wechselndem Etag aus, jedoch ohne LastModified und mit einem Ablaufdatum im November. Das kann eine Suchmaschine schon verwirren.

        freundliche Grüße
        Ingo

        1. Hallo Ingo,

          Danke für Deine Antwort, sie scheint einige Punkte anzusprechen, die wichtig sein könnten. Leider ist mein Verständnis von Apache-Konfiguration nicht so umfassend, daß mir zusammenreimen kann, was ich ändern muß. Erlaube mir bitte ein paar Rückfragen!

          Du bzw. der Server bist es auch selbst en wenig schuld:

          Da ich nichts an dem Server konfiguriert habe, ist wohl mein Webhoster schuld :-)

          http://gio.larp-bb.de/
          GET / HTTP/1.1
          HTTP/1.x 302 OK
          Location: http://gio.larp-bb.de/StartSeite

          Wieso soll 302 "OK" sein? Warum der Statuscode für eine temporäre Weiterleitung? Und warum überhaupt eine Weiterleitung?

          Da ich bestenfalls die Möglichkeit habe, über die .htaccess was zu konfigurieren, hier mal meine:

          STOP REFERRER SPAM

          SetEnvIfNoCase Referer ".*(adultsite|picturesplace|learnthebiz|pi-o|erotica|ghettoinc|port5|bulk-email|camgirls|paris-hilton|modelos|kredit|handyflirt24|versicherung|wwww|erotower|x-1000|flirtnet|blowjob|agedwife|in-the-vip|boysfirsttime|milf|captain-stabbin|tranny|erotik|fetish|frauen|hardcore|fick|krankenversicherung|jinnan-cross|8thstreet|xxx|XXX|ficken|fuck).*" BadReferrer

          order deny,allow
          deny from env=BadReferrer

          <IfModule mod_rewrite.c>
           RewriteEngine on
           RewriteCond %{REQUEST_FILENAME} -d
           RewriteRule ^(.*/[^./]*[^/])$ $1/
           RewriteCond %{REQUEST_FILENAME} !robots.txt
           RewriteCond %{REQUEST_FILENAME} !sitemap.xml
           RewriteCond %{REQUEST_FILENAME} !favicon.ico
           RewriteRule ^(.*)$ wikka.php?wakka=$1 [QSA,L]
          </IfModule>

          Wer betreffende Seite besucht, landet also auf einer HP, die mit einem Wiki, in diesem Falle WikkaWiki, erstellt wurde. Die hier aufgeführte .htaccess ist nahezu vollständig diejenige welche, welche bei v1.1.6.2 mitgeliefert wurde. Ich habe nur die Ausnahmen für favicon.ico, sitemap.xml und robots.txt irgendwo abgeschrieben. Desweiteren habe ich die Anweisung zum Referrer-Spam um 'krank' und 'kontakt' erleichtert -- zwei meiner Seiten wollten mit diesen Einträgen nicht aufgerufen werden.

          So ... wo wir jetzt ein wenig abgeschweift sind: Ich habe nicht die geringste Ahnung, ob meine .htaccess diese Umleitung und den 302er hervorruft. Wenn vielleicht jemand mit mehr Ahnung mal einen Blick draufwerfen könnte? Ich wäre auf ewig in seiner Schuld! :-)

          Du solltest mod_rewrite nicht für obskure Weiterleitungen verwenden, sondern die Inhalte unter den gewünschten Adressen zur Verfügung stellen.

          Ich vermute, auch dieser Kritik kann mit einem flüchtigen Blick eines kenntnisreichen Mitleser über die .htaccess begegnet werden, leider nicht von mir, deswegen:

          Häh? ;-)

          Meines Wissens schreibt mod_rewrite die URL einfach nur von http://gio.larp-bb.de/StartSeite auf http://gio.larp-bb.de/wikka.php?wakka=StartSeite um ... oder so ähnlich. Ich könnte aber bestimmt irgendwie das so einstellen, daß Apache gleich nach der richtigen Datei sucht -- da war doch irgendwas mit default_page oder so, wo ich dann index.htm, index.html, index.php und so einstellen konnte ... ?

          Außerdem lieferst Du die Seiten mit ständig wechselndem Etag aus, jedoch ohne LastModified und mit einem Ablaufdatum im November. Das kann eine Suchmaschine schon verwirren.

          Okay, das ist Fachsprech, das erkenne ich! Was ist ein Etag? Inwiefern ich Einfluß auf das LastModified habe, weiß ich nicht. Schön wäre natürlich, würde das LastModified aus der Wiki-DB entnommen und benutzt -- müßte ich mal in den Quellcode schauen, ob da sowas passiert. Was Du mit dem Ablaufdatum meinst, kann ich leider nur raten. Magst Du mir bitte auf die Sprünge helfen?

          LG aus Berlin-Lichtenberg

          1. hi,

            RewriteRule ^(.*)$ wikka.php?wakka=$1 [QSA,L]

            So ... wo wir jetzt ein wenig abgeschweift sind: Ich habe nicht die geringste Ahnung, ob meine .htaccess diese Umleitung und den 302er hervorruft.

            Die RewriteRule greift auch, wenn nur http://gio.larp-bb.de/ angefordert wurde.
            Dann ist $1 aber leer, also wird http://gio.larp-bb.de/wikka.php?wakka= intern aufgerufen.
            Wenn man das direkt aufruft, http://gio.larp-bb.de/wikka.php?wakka= - dann erfolgt auch sofort die Umleitung auf http://gio.larp-bb.de/StartSeite (also wird es bei der internen Umschreibung höchstvermutlich auch nicht anders sein).

            Du solltest deinem wiki-Script also abgewöhnen, bei leerem Parameter auf die Startseite umzuleiten, oder dafür sorgen, dass die RewriteRule für die Anfrage auf die Domainwurzel nicht greift (dann müsste aber ectl. noch eine passende Startseite per DirectoryIndex festgelegt werden).

            gruß,
            wahsaga

            --
            /voodoo.css:
            #GeorgeWBush { position:absolute; bottom:-6ft; }
            1. Hy wahsaga,

              ich bin gerade dabei, mich in den Untiefen der zahlreichen HTTP-Header-Dokus zu verlieren :-) -- die Sache mit dem Etag begreife ich so langsam ... eine eindeutige Auszeichnung einer Web-Resource oder so ähnlich ... aber zu Deiner Antwort (danke übrigens!):

              Die RewriteRule greift auch, wenn nur http://gio.larp-bb.de/ angefordert wurde.

              Soweit alles klar ...

              Dann ist $1 aber leer, also wird http://gio.larp-bb.de/wikka.php?wakka= intern aufgerufen.
              Wenn man das direkt aufruft, http://gio.larp-bb.de/wikka.php?wakka= - dann erfolgt auch sofort die Umleitung auf http://gio.larp-bb.de/StartSeite (also wird es bei der internen Umschreibung höchstvermutlich auch nicht anders sein).

              Gut! Du meinst also, daß der Fehler 302 durch diese Umleitung erfolgt? Das sollte sich doch korrigieren lassen.

              Du solltest deinem wiki-Script also abgewöhnen, bei leerem Parameter auf die Startseite umzuleiten, oder dafür sorgen, dass die RewriteRule für die Anfrage auf die Domainwurzel nicht greift (dann müsste aber ectl. noch eine passende Startseite per DirectoryIndex festgelegt werden).

              Ahja, genau. DirectoryIndex war der Schuft, den ich meinte. Jetzt meine Frage: Wenn ich einen
              DirectoryIndex StartSeite
              angebe, greift das vor oder nach dem Rewrite? Oder sollte ich doch eher einen
              DirectoryIndex wikka.php?wakka=StartSeite
              angeben? Und ist das überhaupt noch gültig, was ich da vor mich hinspinne ...? Vielleicht sollte ich das einfach mal ausprobieren ...

              LG aus Berlin-Lichtenberg
              Masin

              1. <schizophrenie>
                Hallo Masin, Du selbst hier ...

                Ahja, genau. DirectoryIndex war der Schuft, den ich meinte. Jetzt meine Frage: Wenn ich einen
                DirectoryIndex StartSeite
                angebe, greift das vor oder nach dem Rewrite? Oder sollte ich doch eher einen
                DirectoryIndex wikka.php?wakka=StartSeite
                angeben? Und ist das überhaupt noch gültig, was ich da vor mich hinspinne ...? Vielleicht sollte ich das einfach mal ausprobieren ...

                Ich wollte Dich daran erinnern, daß Du das nicht ausprobieren wolltest, weil Du keine Ahnung hast, wie Du die Serverantwort erhältst!
                </schizophrenie>

                Okay, mal eine Frage in die Runde: Wie kriege ich so eine nette Serverantwort, wie sie mir der zweite Antwortende in diesem Thread präsentiert hat? Danke schön und

                LG von zuhause!
                Masin

                1. hi,

                  Okay, mal eine Frage in die Runde: Wie kriege ich so eine nette Serverantwort, wie sie mir der zweite Antwortende in diesem Thread präsentiert hat?

                  Du meinst, wie du herausbekommst, mit welchen Response Headern der Webserver deines Seite(n) auslieferst.

                  Nun, du kannst einen der im www verfügbaren Services wie bspw. web-sniffer.net nutzen - oder auch die Möglichkeiten deines Browsers, bzw. von Extensions. Für den Firefox gibt es zum Beispiel eine recht praktische mit dem Namen LiveHTTPHeaders, die dir solche Informationen über eine geladene Seite auch anzeigt.

                  gruß,
                  wahsaga

                  --
                  /voodoo.css:
                  #GeorgeWBush { position:absolute; bottom:-6ft; }
              2. hi,

                Gut! Du meinst also, daß der Fehler 302 durch diese Umleitung erfolgt? Das sollte sich doch korrigieren lassen.

                Zuerst: 302 ist kein "Fehler", sondern eine Aufforderung, eines ressource temporär unter einer anderen Adresse abzufragen.

                Und jein, es kommt durch eine Kombination aus Umleitung und dem wiki-Script zustande.

                Durch die interne Umschreibung des Requests durch mod_rewrite wird das wiki-Script mit leerem Parameter wakka aufgerufen - und dadurch fühlt sich das Script dann veranlasst, auf /StartSeite umzuleiten - eben per HTTP Statuscode "302 Found".

                Eventuell lässt sich dieses Verhalten im Script konfigurieren - so dass es bei Aufruf mit leerem Parameter die Inhalte der Startseite einfach _anzeigt_, ohne zunächst auf eine andere Adresse umzuleiten.

                Ahja, genau. DirectoryIndex war der Schuft, den ich meinte. Jetzt meine Frage: Wenn ich einen
                DirectoryIndex StartSeite
                angebe,

                Das wäre wahrscheinlich sinnlos.
                DiretoryIndex bezieht sich m.W. auf physisch existente Dateien - und eine Datei namens StartSeite gibt es bei dir aber gar nicht, sondern diese wird ja nur durch das Rewriting "simuliert".

                greift das vor oder nach dem Rewrite?

                Uff, das weiß ich gerade nicht auswendig.
                Im Apache Manual gibt es irgendwo einen Abschnitt dazu, über "API Phases" und "Processing" o.s.ä. ...

                Oder sollte ich doch eher einen
                DirectoryIndex wikka.php?wakka=StartSeite
                angeben?

                Wenn das Rewriting vorher zuschlägt, nützt auch das alleine vermutlich nichts.

                gruß,
                wahsaga

                --
                /voodoo.css:
                #GeorgeWBush { position:absolute; bottom:-6ft; }
                1. Huhu Wahsaga,

                  Gut! Du meinst also, daß der Fehler 302 durch diese Umleitung erfolgt? Das sollte sich doch korrigieren lassen.

                  Zuerst: 302 ist kein "Fehler", sondern eine Aufforderung, eines ressource temporär unter einer anderen Adresse abzufragen.

                  Entschuldige, Statuscode war das Wort, das ich meinte :-)

                  Und jein, es kommt durch eine Kombination aus Umleitung und dem wiki-Script zustande.

                  Ich glaube das erstmal ungeprüft ...

                  Eventuell lässt sich dieses Verhalten im Script konfigurieren - so dass es bei Aufruf mit leerem Parameter die Inhalte der Startseite einfach _anzeigt_, ohne zunächst auf eine andere Adresse umzuleiten.

                  ... und formuliere eine Zeile im Skript ein wenig anders:

                  $wakka = $_REQUEST["wakka"];

                  zu

                  if($wakka = $_REQUEST["wakka"]=='') $wakka = $wakkaConfig['root_page'];

                  Das sollte doch ungefähr sein, was wir uns vorgestellt haben. Web-Sniffer meldet mir jetzt jedenfalls ein 200 -- damit kann man ja erstmal zufrieden sein. Außerdem bleibt der Browser jetzt bei http://gio.larp-bb.de/

                  Bleiben die anderen ominösen Header-Infos:
                  Was will mir das wechselnde ETag sagen? Warum expired meine Seite irgendwann im November 1981(!)? Ich werde mal in die Tiefen des Codes hinabsteigen, um herauszufinden, ob der Header irgendwo PHP-Skript-seitig manipuliert wird. Ich erinnere mich, gelesen zu haben, daß Wikka erstmal alle Ausgaben sammelt, bevor die Ausgabe gegzipt mit korrekter Length-Angabe übertragen wird ... da müßte man doch was finden ...

                  LG von zuhause
                  Masin

                  1. ... und formuliere eine Zeile im Skript ein wenig anders:

                    $wakka = $_REQUEST["wakka"];

                    zu

                    if($wakka = $_REQUEST["wakka"]=='') $wakka = $wakkaConfig['root_page'];

                    Das sollte doch ungefähr sein, was wir uns vorgestellt haben. Web-Sniffer meldet mir jetzt jedenfalls ein 200 -- damit kann man ja erstmal zufrieden sein. Außerdem bleibt der Browser jetzt bei http://gio.larp-bb.de/

                    Autsch! Das hat geknallt! Änderung wieder zurück, damit der Rest der Site weiterläuft. So ist man leider immer wieder bei StartSeite gelandet ...

                    ... okay, ich denke Montag weiter darüber nach. Vielleicht habe ich ja über's Wochenende eine Eingebung.

                    Schö WoE

  2. Hallo nochmal,

    Meine einzige Vermutung ist bislang, daß auf der Subdomain www bislang nichts zu finden ist außer der Begrüßung durch ein frischinstalliertes CMS und Google das als Anlaß nimmt, erstmal die Seite aus den Suchergebnissen rauszuhalten.

    Mir wurde ja schon ein wenig geholfen und ich auf die Schwachstellen meines Angebots aufmerksam gemacht. Was mich jedoch ein klitzkleines wenig wundert, ist folgende Tatsache: http://wikkawiki.org produziert die selben Sachen -- und wird von Google gefunden ...

    Mysteriös -- und der IE ist heute nicht mal schuld ...

    LG und gute Nacht Forum
    Masin