Google Bot crawlt Seiten (Archive), die nicht verlinkt sind.
astera
- sonstiges
Hallo,
ich habe eine Frage.
Ich habe meinen Blog (Wordpress 2.71) vor einigen Monaten umgestellt, dass Archive nicht mehr angezeigt werden sollen, d.h., dass es die Verlinkung zu www.example.org/2008/xx/xx nicht mehr gibt.
Wenn ich meinen Blog durchforste, zeigt keine Verlinkung auf irgend ein Archiv aus irgend einem Jahr. Ich hoffe, ich habe mich verständlich ausgedrückt.
Jetzt habe ich ein Plugin installiert, dass mir alle 404 Fehlerseiten per Mail schickt, die in meinem Blog produziert werden. Folgende Fehlermeldung erscheint.
************* Schnipp *******************
404 Report - a file not found error was registered on your site.
404 URL: http://kuchen-web.de/2008/03/16/gelatine
Referred by:
User Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
************* Schnapp *******************
Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????
WIE GEHT DAS???
LG
astera
WIE GEHT DAS???
Irgendwo wird Google den Link schon herhaben - von früher z.B.
Zudem wage ich zu behaupten, dass Google die Struktur von bekannten CMS' kennt und einfach pauschal mit bekannten Permalinkstrukturen "herumprobiert".
Guten Tag,
Zudem wage ich zu behaupten, dass Google die Struktur von bekannten CMS' kennt
und einfach pauschal mit bekannten Permalinkstrukturen "herumprobiert".
Hast du dafür irgendwelche Beweise?
Gruß
Christoph Jeschke
Hast du dafür irgendwelche Beweise?
Nein, darum behaupte ich das ja - aber es ist naheliegend, weil Google sehr "gierig" ist.
Zudem wäre es technisch ein leichtes, das auszuwerten: wenn Generator = Wordpress dann probiere die bekannten default-Permalinkstrukturen.
Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????
Google hat den Link in seiner Datenbank, und ist nicht auf deine Verlinkung angewiesen. Google wird diese Links auch so lange aus seiner Datenbank verifizieren, bis du Google ein 410 sendest.
mfg Beat
»» Hier hat der Google Bot meine Seite durchforstet und ist auf die Archive gestossen, obwohl ich die nicht mehr verlinkt habe????
Google hat den Link in seiner Datenbank, und ist nicht auf deine Verlinkung angewiesen. Google wird diese Links auch so lange aus seiner Datenbank verifizieren, bis du Google ein 410 sendest.
mfg Beat
Hallo Beat,
du meinst also, dass der Google Bot mit meiner Seite im Bauch, die er von früher noch im Index hat, meine Seite erneut besucht, um nachzuschauen, ob die noch valide ist?
Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?
Nochmal die Meldung:
************* Schnipp *******************
404 Report - a file not found error was registered on your site.
404 URL: http://kuchen-web.de/2008/03/16/gelatine
Referred by:
User Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
************* Schnapp *******************
Bezeichnend hier natürlich, dass es keinen Referrer gibt. oder ??
LG
astera
Hello,
Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?
Du solltest dies mal mit eingeschalteter Life-Headers-Anzeige an Deinem Browser tun, dann siehst Du den Grund. Aber vorher Cache leeren oder zumindest STRG-F5 benutzten.
Dein Tool wird der Umleitung nicht folgen, sondern nur plump einen Header auswerten.
Da wird dann aber auch kein 404 kommen, sondern einfach die Reaktion auf "no body".
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Hello,
»» Warum wirft mir dann einerseites das Plugin einen 404er raus und andererseits, wenn ich auf den Link klicke, wird mir (per permanent redirect), eine gültige Seite angezeigt?
Du solltest dies mal mit eingeschalteter Life-Headers-Anzeige an Deinem Browser tun, dann siehst Du den Grund. Aber vorher Cache leeren oder zumindest STRG-F5 benutzten.
Dein Tool wird der Umleitung nicht folgen, sondern nur plump einen Header auswerten.
Da wird dann aber auch kein 404 kommen, sondern einfach die Reaktion auf "no body".Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Hallo Tom,
vielen Dank für den Tip mit dem Live Header. Hab das mal im FF alls Addon installiert und für den redirect folgendes gefunden:
************************Schnipp***************************
http://kuchen-web.de/2008/03/26/lockerer
GET /2008/03/26/lockerer HTTP/1.1
Host: kuchen-web.de
User-Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: en-us,en;q=0.5
Accept-Encoding: gzip,deflate
Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive: 300
Proxy-Connection: keep-alive
Cookie: __utma=26160807.1488952983.1236017590.1243324588.1243327384.88; __utmz=26160807.1243109703.79.18.utmccn=(organic)|utmcsr=yahoo|utmctr=Rezept+Rhabarbertorte|utmcmd=organic; CHC_COUNT_PROTECTION=do_not_count_me; CHC_LOGIN=astera%7E7ac1171d19ee22af506b25a546dd826d; __utmc=26160807; PHPSESSID=82379edd0aab844f7eaad1f59b7f4848; __utmb=26160807.4.10.1243327384
HTTP/1.x 301 Moved Permanently
Transfer-Encoding: chunked
Date: Tue, 26 May 2009 08:56:15 GMT
Content-Type: text/html; charset=UTF-8
Expires: Tue, 26 May 2009 08:56:15 GMT
Cache-Control: no-cache, must-revalidate, max-age=0
Server: Apache
Pragma: no-cache
X-Pingback: http://www.kuchen-web.de/xmlrpc.php
X-Powered-By: PHP/5.2.9
Last-Modified: Tue, 26 May 2009 08:56:15 GMT
Location: http://www.kuchen-web.de/ratgeber-backen/lockerer-hefeteig/
******************Schnapp********************
Mein Tool (Plugin) für Wordpress gibt aber aus:
****************Schnipp*************
404 Report - a file not found error was registered on your site.
404 URL: http://kuchen-web.de/2008/03/26/lockerer
Referred by:
User Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
***************Schnapp********************
Hier gibt es keinen Referrer und es war kein Bot, sondern ein User aber was hat es mit dem Link:
http://kuchen-web.de/2008/03/26/lockerer
auf sich?
Den gibt es bei mir nicht und ich glaube auch nicht, dass sich ein User den als BM gespeichert hat.
LG
astera
Hallo astera,
bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.
File Griese,
Stonie
Hallo Stonie,
sorry gelobe Besserung.
greetz
Hello,
bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.
Danke, sehr freundlich :-|
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Hallöle!
»» bitte sei so nett und verzeichte darauf, in deiner Antwort den gesamten Text des Postings, auf das du antwortest, zu zitieren. Einerseits macht das dein Posting unübersichtlich, andererseits füllt es unser Archiv mit vollkommen unnötigen Daten.
Danke, sehr freundlich :-|
*hehehe* Wat willze denn, Junge? Dein Posting steht doch vollständig im Thread, da muss es doch nicht nochmal ins Archiv! Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)
File Griese,
Stonie
Hello,
Danke, sehr freundlich :-|
*hehehe* Wat willze denn, Junge? Dein Posting steht doch vollständig im Thread, da muss es doch nicht nochmal ins Archiv! Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)
Nee ich wollte Dich nur mal frech angrinsen ;-))
BTW: Du bist die Verfasserin von dem Starters-Artikel. Den finde ich bis auf ein paar technische Details wgut gelungen. Die eigentliche Frage: wer hat das Layout dafür gemacht, wie kann ich das bekommen? Gibt es irgendwelche Hilfsmittel für die Artikelerfassung außer dem eigenen Editor?
Ich wollte mich nun nämlich doch endlich nochmal zum Upload von Files auslassen
(aber natürlich nur, wenn EKKi das erlaubt *gg*)
Liebe Grüße aus dem schönen Oberharz
Tom vom Berg
Nabend,
BTW: Du bist die Verfasserin von dem Starters-Artikel. Den finde ich bis auf ein paar technische Details wgut gelungen. Die eigentliche Frage: wer hat das Layout dafür gemacht, wie kann ich das bekommen? Gibt es irgendwelche Hilfsmittel für die Artikelerfassung außer dem eigenen Editor?
Anfänger-Tutorial, bitte. Und es ist noch lange nicht fertig, leider, eigentlich sollte es das sein, aber egal jetzt, du willst ja etwas anderes wissen. Die neue Version von SELFHTML, die hoffentlich irgendwann doch mal rauskommt, wird in das neue Layout gegossen werden. Wer an der 9.0 mitschreibt, schreibt also mit dem dazugehörigen Editor oder etwas anderem, was dem eigenen Genie mehr entgegenkommt (und kriegt dann entsprechend auf die Mütze, wenn was falsch läuft ;o)).
Ich wollte mich nun nämlich doch endlich nochmal zum Upload von Files auslassen
Das läuft ja immer noch auf Basis der Artikel, hol dir einfach das Template, fang an und schick es an die Redaktion, wenn du fertig bist.
File Griese,
Stonie
Hallo Stonie,
Oder war das deiner Ansicht nach einer deiner genialeren Momente und sollte deswegen so oft wie möglich textgleich im Archiv aufzufinden sein? ;o)
File Griese,
Stonie
das war nicht meine Absicht. Ich nutze das Forum um meine Probs besser in den Griff zu bekommen. Ich hatte einfach nur nicht nachgedacht, als ich das abgeschickt hatte. Wird ja auch nicht wieder vorkommen.
Da gibt es bestimmt bessere Möglichkeiten, als sich dem Zorn eines guten Forums zuzuziehen.
Greetz
astera
vielen Dank für den Tip mit dem Live Header. Hab das mal im FF alls Addon installiert und für den redirect folgendes gefunden:
************************Schnipp***************************
...snipp...
http://kuchen-web.de/2008/03/26/lockerer
...
Cookie: DELETED__________________
Bitte poste nie Cookiewerte.
Grund: Hier kann es sich um Daten handeln, deren Kenntnis einen Account kompromittieren können. Du gibst eventuell Login-Rechte bekannt.
mfg Beat
Hi,
Mein Tool (Plugin) für Wordpress gibt aber aus:
****************Schnipp*************
404 Report - a file not found error was registered on your site.404 URL: http://kuchen-web.de/2008/03/26/lockerer
Dann hat sich dieses Plug-In also entschieden, den Request nicht nur auf eine andere Adresse umzuleiten, sondern auch als 404 in seinem Log zu notieren.
Na und?
User Agent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)
***************Schnapp********************
Hier gibt es keinen Referrer und es war kein Bot, sondern ein User aber was hat es mit dem Link:
http://kuchen-web.de/2008/03/26/lockerer
auf sich?
Den gibt es bei mir nicht und ich glaube auch nicht, dass sich ein User den als BM gespeichert hat.
Von wann ist den der Request? *Nachdem* du diese Adresse hier im ersten Beitrag gepostet hast? Dann ist es ja kaum unwahrscheinlich, dass ein Mitleser sich das ganze mal angeschaut hat - um zu schauen, was bei Aufruf dieser Adresse wirklich passiert.
MfG ChrisB