Suchmaschinen Eintrag in Logfile
Fritz
- sonstiges
Hallo,
In Logfiles finde diese beiden Einträge:
64.68.82.169 - - [03/Sep/2004:10:24:01 +0200] "GET /robots.txt HTTP/1.0" 404 208 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
64.68.82.169 - - [03/Sep/2004:10:24:02 +0200] "GET / HTTP/1.0" 200 2737 "-" "Googlebot/2.1 (+http://www.google.com/bot.html)"
und keine weiteren Einträge mehr.
Kann mir jemand sagen, was das zu bedeuten hat?
Hat der googlebot keine Lust gehabt, sich einzelne Seiten anzuschauen :-(
Spaß beiseite: Das passiert auf einer Site, wo sich der googlebot seit Monaten weigert, mehr als die index.php zu indexieren.
Also ein Tipp, ob ich aus diesem Logfileeintrag irgendwas entnehmen kann, wär sehr hilfreich.
Gruß Fritz
Hallo,
schau dir mal die Rewrite Engine bzw. modrewrite an
damit kann man php seiten viel Suchmaschinen freundlicher machen..
hoffe das hilft..
gruss
Christian
Kann mir jemand sagen, was das zu bedeuten hat?
Hat der googlebot keine Lust gehabt, sich einzelne Seiten anzuschauen :-(
Spaß beiseite: Das passiert auf einer Site, wo sich der googlebot seit Monaten weigert, mehr als die index.php zu indexieren.
Also ein Tipp, ob ich aus diesem Logfileeintrag irgendwas entnehmen kann, wär sehr hilfreich.Gruß Fritz
Hallo,
schau dir mal die Rewrite Engine bzw. modrewrite an
damit kann man php seiten viel Suchmaschinen freundlicher machen..
Danke für den Tip.
Hatte auch schon den Verdacht, daß der googlebot evtl. Probleme mit der php Seite hat (obwohl das wirklich nicht nachvollziehbar ist. IMHO kriegt der bot, wie jeder useragent, das html zu sehen. Ob das per php oder sonstwie serverseitig zusammengeschraubt wird, sollte eigentlich egal sein.)
wie dem auch sei:
Ich hab die index.php als vollständige, statische html Seite auf den Server gestellt. Heißt nur weiterhin .php, damit die Navi funktioniert.
Wie nicht anders zu erwarten war:
der googlebot hat weiterhin entweder Probleme mit der Seite, oder keine Lust.
(wer, anders als der googlebot, Lust hat, kann sich das Teil ja anschauen: http://www.widernhof.de/index.php)
Gruß Fritz
Hi,
Nach http://www.abakus-internet-marketing.de/foren/viewtopic/t-6471.html, dem einzigen Backlink, den Google angibt übrigens, kennt google die Seite erst seit gut 2 Monaten - da sollte sie eigentlich schon etwas besser gespidert sein. Aber vielleicht hält google sie für zu unwichtig? Versuche es doch mal mit etwas mehr Text auf der Startseite. Du könntest auch mal einen Test machen, und eine tatsächlich statische *.html Startseite verwenden.
Ansonsten würden wohl nur Backlinks von PR-starken Seiten helfen.
freundliche Grüße
Ingo
Hallo,
Versuche es doch mal mit etwas mehr Text auf der Startseite.
Auch das werd ich noch versuchen, obwohl ich mit anderen ähnlichen Seiten nie Probleme mit google hatte.
Du könntest auch mal einen Test machen, und eine tatsächlich statische *.html Startseite verwenden.
wie schon gesagt: die index.php _ist_ (zu Testzwecken) eine statische html Seite, sie heißt nur index.php (cool URLs don't change).
Ansonsten würden wohl nur Backlinks von PR-starken Seiten helfen.
schon klar. Nur: wo her nehmen, und nicht stehlen. Linktausch kommt erst in Frage, wenn ich einen PR > 0 hab.
Gruß Fritz
Hi,
wie schon gesagt: die index.php _ist_ (zu Testzwecken) eine statische html Seite, sie heißt nur index.php (cool URLs don't change).
nein, ist sie nicht. Sie wird von PHP geparsed und hat unvollständige Header-Daten:
HTTP/1.1 200 OK
Date: Fri, 03 Sep 2004 22:24:51 GMT
Server: Apache
X-Powered-By: PHP/4.3.4
Transfer-Encoding: chunked
Content-Type: text/html
Was ein Merkmal für statische Seiten ist - Content-Length - fehlt.
Außerdem fehlt eine Angabe zu Last-Modified.
Mag sein, daß sich google hieran ein wenig stört.
freundliche Grüße
Ingo
Hallo,
sei doch bitte so nett, und sag mir, wie man die Header Daten ausliest.
Gruß Fritz
Hi,
wenn Dein Browser sie nicht hergibt: http://validator.de.selfhtml.org/ zeigt Dir aßerdem noch ein paar kleine Fehlerchen auf.
freundliche Grüße
Ingo
Hallo,
ein paar kleine Fehlerchen ...
verd..., da bin ich so pingelig, und jetzt ist's doch passiert.
Wenn man nicht jede kleinste Änderung durch den validator laufen läßt :-(
Gruß Fritz
Hallo Ingo,
Was ein Merkmal für statische Seiten ist - Content-Length - fehlt.
Außerdem fehlt eine Angabe zu Last-Modified.
Das kann man ja aber trotzdem manipulieren, oder? Was genau enthaelt denn "Content-Length"? Die Anzahl der Zeichen im HTML-Output?
Und bei "Last-Modified" komme ich wohl nicht drumrum, das tatsaechliche Aenderungsdatum irgendwo abzulegen (so dass die Angaben konsistent sind). Oder kann ich einfach pauschal immer das aktuelle Datum angeben?
Danke dir, Eddie
Hi,
Das kann man ja aber trotzdem manipulieren, oder?
sicher doch - wird auch von einigen SEOs gemacht, um statische Seiten vorzutäuschen.
Was genau enthaelt denn "Content-Length"? Die Anzahl der Zeichen im HTML-Output?
Ja. Genauer gesagt die Dateigröße, also ohne die Headerdaten. Aber sieh' Dir doch einfach mal den Header einer ungeparten Datei an. Z.B. meine Index:
HTTP/1.1 200 OK
Date: Sat, 04 Sep 2004 06:40:50 GMT
Server: Apache/1.3.29 (Unix)
Last-Modified: Wed, 14 Jul 2004 20:00:57 GMT
ETag: "d9801e-1477-40f590f9"
Accept-Ranges: bytes
Content-Length: 5239
Content-Type: text/html
Und bei "Last-Modified" komme ich wohl nicht drumrum, das tatsaechliche Aenderungsdatum irgendwo abzulegen (so dass die Angaben konsistent sind). Oder kann ich einfach pauschal immer das aktuelle Datum angeben?
Wäre ich google und wollte dynamisch generierte Seiten indentifizieren, würde ich dann doch sehr mißtrauisch werden. Außerdem könnte keiner dann mehr einen 304 bekommen und es würde unnötig Traffic entstehen. Sinnvoll ist schon das tatsächliche Änderungsdatum.
Aber was spricht zumindest bei der Indexdatei gegen *.html? Zum einen kann's doch kaum schlimmer werden und zum anderen dürfte diese Datei namentlich doch nirgends verlinkt sein. Und falls doch:
RedirectMatch permanent /index.php /index.html
freundliche Grüße
Ingo
Hallo,
Aber was spricht zumindest bei der Indexdatei gegen *.html?
eigentlich nur meine Faulheit. Hab die einzelnen Dateien aus lauter Blöcken (head, navi, footer etc.) per php zusammengebastelt
Zum einen kann's doch kaum schlimmer werden...
das stimmt wohl.
Ok; ich hab's getan ... jetzt schau mer mal
Gruß Fritz
Hi,
eigentlich nur meine Faulheit. Hab die einzelnen Dateien aus lauter Blöcken (head, navi, footer etc.) per php zusammengebastelt
Ein Tip: da die Seiten ja tatsächlich recht statisch sein werden und nur selten Änderungen vorgenommen werden müssen, könntest Du die Seiten mal kurz von einem Offline-Reader speichern lassen und dann hättest Du eine komplette
HTML-Version.
freundliche Grüße
Ingo
Hallo 1ngo,
Ein Tip: da die Seiten ja tatsächlich recht statisch sein werden und nur selten Änderungen vorgenommen werden müssen, könntest Du die Seiten mal kurz von einem Offline-Reader speichern lassen und dann hättest Du eine komplette HTML-Version.
schon klar.
Aber das kann's eigentlich auch nicht sein. Nur weil Google _eventuell_ eine Site nicht mag, kann ich doch nicht PHP über Bord werfen.
Natürlich: bei http://www.widernhof.de ging's ganz gut mit SelfHTML, Phase5, notebook;-), aber da gibt's auch noch Dinge, die _müssen_ einfach serverseitig laufen. Und dann?
Gruß Fritz
Hi,
Aber das kann's eigentlich auch nicht sein. Nur weil Google _eventuell_ eine Site nicht mag, kann ich doch nicht PHP über Bord werfen.
nicht nur - auch weil es u.U. ein klein wenig schneller ist.
aber da gibt's auch noch Dinge, die _müssen_ einfach serverseitig laufen. Und dann?
genau dann (für diese Dateien) wäre *.PHP natürlich angebracht.
freundliche Grüße
Ingo
Hallo,
also die Antworten waren ja alle sehr lehrreich.
Aber meine ursprüngliche Frage wurde dabei wohl ganz übersehen:
Was bedeutet ... GET / HTTP/1.0 ... im logfile?
Ich vermute mal, daß die index-Datei gespidert wird. Oder lieg' ich da falsch?
Gruß Fritz
Hallo Fritz,
Was bedeutet ... GET / HTTP/1.0 ... im logfile?
erst kommt die Methode mit der die Seite aufgerufen wurde (hier GET, wenn die Seite durch absenden eines Formulars aufgerufen wurde, kann es auch mal POST sein (je nach dem was im method-Attribut steht), es gibt aber auch noch mehr Methoden, frag mich aber nicht wie die heißen :-))
als zweites kommt dann der Pfad - hier das Root-Verzeichnis, also '/'. Im Ausgangsposting war es in der anderen Zeile die Datei robots.txt im Root-Verzeichnis (also '/robots.txt')
zum Schluss kommt dann noch das verwendete Protokoll (hier: HTTP) und die Version (hier:1.0, möglich ist afaik auch noch 0.9 und 1.1).
Ich vermute mal, daß die index-Datei gespidert wird.
ja, es wurde http://www.widernhof.de/ angefordert - wie die Datei die dann kommt heißt, ist Google egal.
Grüße aus Nürnberg
Tobias
use Mosche;
Hat der googlebot keine Lust gehabt, sich einzelne Seiten anzuschauen :-(
Spaß beiseite: Das passiert auf einer Site, wo sich der googlebot seit Monaten weigert, mehr als die index.php zu indexieren.
Naja, ich habe mir deine Seiten nicht angesehen, aber bedenke bitte, daß Google sich weigert, dynamische Seiten zu spidern, also insb., wenn du Unterseiten über Parameter lädst (/index.php?page=234 ...), dann findet Google die Unterseiten nicht.
_Dazu_ wird dann haüfig mod_rewrite eingesetzt, um /page/234 auf eben /index.php?page=234 (zBsp) umzusetzen.
use Tschoe qw(Matti);