Frage zu robots.txt und sitemap
NetLook
- sonstiges
1 Cheatah0 NetLook0 Gunnar Bittersmann0 Cheatah0 Ingo Turski0 Cheatah
Hallo!
Frage zur Sitemap:
In meiner Navigation sind die Verweise in folgender Art: http://www.domain.de/seite.php?cnt=datei.htm
Muss ich diesen Verwweis dann auch in die Sitemap so schreiben? Müssen/können hier auch die Verweise zu externen Seiten eingefügt werden?
Oder muss ich den Pfad einfügen, wo die Datei liegt?
http://www.domain.de/ordner/datei.htm
Frage zu robots.txt:
Gleiche Frage, wie oben, muss ich hier den Verweis oder den Pfad einfügen?
Wenn ich hier nun disallow: /*? schreibe und ein externer Link enthält aber ein ?, wird diese Externe Seite ausgeschlossen?
Hi,
Muss ich diesen Verwweis dann auch in die Sitemap so schreiben?
Du musst gar nichts, eine Sitemap ist keine Pflichtveranstaltung. Frage Dich, _wer_ eine Sitemap aufruft und _was_ er dort zu finden erwartet.
Müssen/können hier auch die Verweise zu externen Seiten eingefügt werden?
Gehören diese externen Seiten zur Site?
Oder muss ich den Pfad einfügen, wo die Datei liegt?
Dateien sind absolut irrelevant. Wir reden hier von HTTP; der Client ruft also Ressourcen auf, und diese besitzen eine URL. Niemanden, Dich persönlich ausgenommen, interessiert, ob irgendwo irgendwelche Dateien herumlungern.
http://www.domain.de/ordner/datei.htm
Ist dies die URL zur Ressource, Tim Schumacher[1]?
Gleiche Frage, wie oben, muss ich hier den Verweis oder den Pfad einfügen?
Auch hier musst Du gar nichts, ebenso wenig wie ein Robot diese Ressource beachten muss.
Wenn ich hier nun disallow: /*? schreibe
Dann bittest Du Robots, die URL "http://www.domain.de/*?" nicht anzufordern.
und ein externer Link enthält aber ein ?, wird diese Externe Seite ausgeschlossen?
Hat dieser externe Link die URL "http://www.domain.de/*?"?
Cheatah
[1] Tim Schumacher ist der angegebene administrative Kontakt der Sedo GmbH, welcher die Domain domain.de gehört. Daher nehme ich an, dass Du das bist.
Hi,
Hi
Du musst gar nichts, eine Sitemap ist keine Pflichtveranstaltung. Frage Dich, _wer_ eine Sitemap aufruft und _was_ er dort zu finden erwartet.
Da war ich nicht genau genug, ich meinte die Sitemap für Google, das es auch für Google keine Pflicht ist, weis ich, ich würde trotzdem gerne wissen, ob der Link oder der Pfad, also Verzeichnisstruktur angegeben werden muss?!
Dateien sind absolut irrelevant. Wir reden hier von HTTP; der Client ruft also Ressourcen auf, und diese besitzen eine URL. Niemanden, Dich persönlich ausgenommen, interessiert, ob irgendwo irgendwelche Dateien herumlungern.
Daher nehme ich mal an, der Link muss angegeben werden!
Gehören diese externen Seiten zur Site?
Nein es sind Verweise zu anderen Domains, Linkpartner sozusagen.
http://www.domain.de/ordner/datei.htm
Ist dies die URL zur Ressource, Tim Schumacher[1]?
Ich bin nicht Tim :) Die Datei liegt dort, aber über einen Link, käme man nur über www.domainname.de/seite.php?cnt=datei.htm ran
Gleiche Frage, wie oben, muss ich hier den Verweis oder den Pfad einfügen?
Auch hier musst Du gar nichts, ebenso wenig wie ein Robot diese Ressource beachten muss.
Das müssen bitte nicht ganz so wörtlich nehemen ;-)
Wenn ich hier nun disallow: /*? schreibe
Dann bittest Du Robots, die URL "http://www.domain.de/*?" nicht anzufordern.
Also wird diese Seite nicht indeziert, richtig?!
Hat dieser externe Link die URL "http://www.domain.de/*?"?
Ne, der würde z.B. www.fremdedomain.de/fremde_seite.php?cnt=fremde_datei.htm lauten
[1] Tim Schumacher ist der angegebene administrative Kontakt der Sedo GmbH, welcher die Domain domain.de gehört. Daher nehme ich an, dass Du das bist.
Ne, diente nur als ein neutrales Beispiel ;-)
Hello out there!
Ich bin nicht Tim :) […] www.domainname.de/seite.php?cnt=datei.htm
Ach, dann bist du Thomas Dolezal (einer der Torpedo Twins), Inhaber der Domain domainname.de? Und dein Admin-C ist – oh Schreck lass nach – ein bekannter RA.
Ne, diente nur als ein neutrales Beispiel ;-)
Nee, dafür dienen example.com, example.net, example.org oder auch foo.example, foo.invalid. [RFC2606] Als Beispieldomains NIE Namen angeben, die wirklich existieren! (Man weiß nie, was sich für Inhalt dahinter verbirgt.)
See ya up the road,
Gunnar
Hi,
Als Beispieldomains NIE Namen angeben, die wirklich existieren!
kleine Ergänzung: Diesem Satz muss noch das Wort "können" hinzugefügt werden. Wenn morgen jemand "fremdedomain.de" registriert, ist die Nennung im Vaterposting bereits nachteilig.
Cheatah
Mhh...
Also, das es nicht erlaubt ist, weil evtl. was unschönes auf den Seiten zu finden wäre kann ich nachvollziehen, aber wo sollte sonst das Problem liegen? Ich erwähne eine Internetseite ausversehen, andere machen das sogar mit Absicht, was soll daran unrecht sein?
Hello out there!
aber wo sollte sonst das Problem liegen?
Werbung für Sites, die diese nicht verdienen.
Warum sollte sich jemand solche Domainnamen registrieren, wenn nicht, um auf Bauernfang zu gehen?
See ya up the road,
Gunnar
Ich nenne jetzt als Beipiel www...1..de, die kann es wohl nicht geben!
In der Übersicht von Webmastertools von Google, wurden für die
[code=html]Seite www...1..de[/code]
Fehler angezeigt und zwar kam [b]ein ungültiges Zeichen in der URL vor, ein "?".[/b]
[code=html]Auf www...1..de[/code]
habe ich nun im Content Links zu einer anderen Internetseite von mir, z.B.
[code=html]www...2..de[/code]
die direkt auf einen bestimmten Inhalt der Seite verweisen. Z.B.
[code=html]www...2..de/cnt.php?cnt=datei.php[/code]
und auch auf
[code=html]www...1..de[/code]
habe ich interne Links dieser Art, z.B. [code=html]www...1..de/kontakt.php?cnt=list.php[/code]
1. Möchte ich die Fehlermeldung von Google Webmastertools beheben, das bedeutet, es dürfen keine URLs mit ? zur indizierung bereit stehen
2. Ich möchte aber, das dem Link:
[code=html]www...1..de/kontakt.php?cnt=list.php[/code]
vom Bot oder Robot oder wem auch immer gefolgt werden kann und dieser Inhalt indiziert werden kann.
3. Ebenso soll dem Link
[code=html]www...2..de/cnt.php?cnt=datei.php[/code]
gefolgt werden können, damit der Bot sehen kann, ob da Themenverwandter Inhalt u.a. zu finden ist.
[b]Das Problem:[/b]
Wenn ich in der Sitemap für Google oder auch in der robots.txt, die URLs ausschließe, wo ein "?" vorkommt, kann Punkt 2 und 3 nicht erfüllt werden.
Muss ich nun deshalb, meine Navigation umschreiben, das nur noch Links ohne "?" vorkommen? Oder gibt es da noch andere Lösungen, eine 301 Weiterleitung z.B. Aber Weiterleitungen sind doch bei Suchmaschinen unerwünscht.
Hi,
- Möchte ich die Fehlermeldung von Google Webmastertools beheben, das bedeutet, es dürfen keine URLs mit ? zur indizierung bereit stehen
Unsinn. verstehe bitte *den Grund* für diese Fehlermeldung. Du kannst wie ich schon sagte in einer Google-Sitemap keine externen Resourcen angeben, wohl aber einen Link auf Deine Seite example.org in der Art:
http://example.org/externe-links.php?example.net
freundliche Grüße
Ingo
Hi,
hi!
wohl aber einen Link auf Deine Seite example.org in der Art:
http://example.org/externe-links.php?example.net
Ja ok, aber auch bei den internen URLs, kommt ja die Fehlermeldung und ich meine solange das so ist, werden die Seiten auch nicht indiziert und "ausgewertet", um evtl. in der Plazierung steigen zu können.#
Gruß
NetLook
Hi,
Ja ok, aber auch bei den internen URLs, kommt ja die Fehlermeldung
welche "die" Fehlermeldung? Seit wann ist ein Fehler im Spiel?
Cheatah
Hi,
Ja ok, aber auch bei den internen URLs, kommt ja die Fehlermeldung
welche "die" Fehlermeldung? Seit wann ist ein Fehler im Spiel?
In den Webmastertools von Google, hat man eine Übersicht seiner Seiten, mit Sitemap u.a., dort steht ein Fehler und zwar das einer URL nicht gefolgt werden kann, weil ein Sonderzeichen vorkommt, in dem Fall ein "?"
hi,
In den Webmastertools von Google, hat man eine Übersicht seiner Seiten, mit Sitemap u.a., dort steht ein Fehler und zwar das einer URL nicht gefolgt werden kann, weil ein Sonderzeichen vorkommt, in dem Fall ein "?"
Und wie _genau_ lautet dieser fragliche URL?
gruß,
wahsaga
hi,
hi
Und wie _genau_ lautet dieser fragliche URL?
Ist das wichtig? Es ist eine URL mit einem "?" drin, wie www.......de/cnt.php?ct=datei.php
So sehen die bei mir aus und entweder schreibe ich wohl die Navigation um oder ich probiere es mit mod_rewrite, eine andere Möglichkeit gib es wohl nicht oder?
Gruß
NetLook
Hi,
Und wie _genau_ lautet dieser fragliche URL?
Ist das wichtig?
rate mal, ob wir andernfalls danach fragen würden.
Es ist eine URL mit einem "?" drin,
Und mit einem "h" drin, da wette ich. Und mit mindestens einem ":" und sicherlich mehr als zwei "/".
wie www.......de/cnt.php?ct=datei.php
Das ist keine URL. Und nein, ich meine damit nicht die Anonymisierung durch die Punkte. Die Frage von wahsaga ist noch immer unbeantwortet.
Cheatah
rate mal, ob wir andernfalls danach fragen würden.
Naja, es geht doch um den Sinn, ob die URL jetzt abc oder cda heist, beide haben ein ? als Anhängsel und das ist der Punkt, war aber nicht bös gemeint, leider kann man im Internet nicht betonen ;-)
Und mit einem "h" drin, da wette ich. Und mit mindestens einem ":" und sicherlich mehr als zwei "/".
Du solltest dich wahsaga nennen
Gruß
NetLook
Hi,
Ich erwähne eine Internetseite ausversehen, andere machen das sogar mit Absicht, was soll daran unrecht sein?
frag das mal die Stiftung Warentest, genauer gesagt deren Postmaster, der sich über zu wenig Mails sicher nicht beklagen kann.
Die Tatsache, dass ein RFC existiert, welcher _genau_ festlegt, was für Beispielangaben herhalten darf, ist IMHO schon recht aussagekräftig. Wenn Du die Gründe dafür nicht verstehst, so ist das nicht schlimm; in dem Fall akzeptiere aber bitte die Vorgabe, mindestens bis ein entsprechendes Verständnis aufgebaut ist.
"That's why there are rules - so you think before you break them."
-- Terry Pratchett, Thief of Time
Cheatah
Hi,
Da war ich nicht genau genug, ich meinte die Sitemap für Google,
ah so.
ich würde trotzdem gerne wissen, ob der Link oder der Pfad, also Verzeichnisstruktur angegeben werden muss?!
Genau wie jeder und alles andere - von Dir persönlich abgesehen - besucht auch der Googlebot Deine Site per HTTP. Ergo existieren keine Dateien, ergo kann ein Dateipfad unter Garantie nicht die geringste Relevanz haben. Genau wie jeden und alles andere interessiert Google nur die URL.
Ist dies die URL zur Ressource, Tim Schumacher[1]?
Ich bin nicht Tim :) Die Datei liegt dort, aber über einen Link, käme man nur über www.domainname.de/seite.php?cnt=datei.htm ran
Siehe Gunnars Antwort. Mache Dir bewusst, dass Du hier mit fremder Leute Eigentum hantierst!
Wenn ich hier nun disallow: /*? schreibe
Dann bittest Du Robots, die URL "http://www.domain.de/*?" nicht anzufordern.
Also wird diese Seite nicht indeziert, richtig?!
Sofern der Robot sich daran hält, ja. Übrigens halte ich es nur bedingt für sinnvoll, die URI "*" im Root des Servers anzubieten, zudem mit einem existierenden, aber leeren Query-String.
Hat dieser externe Link die URL "http://www.domain.de/*?"?
Ne, der würde z.B. www.fremdedomain.de/fremde_seite.php?cnt=fremde_datei.htm lauten
Na also, dann ist sie nicht Teil Deiner Site, selbst wenn Du fremdedomain.de noch registrierst und darunter Inhalte anbietest.
Cheatah
Hi,
ich würde trotzdem gerne wissen, ob der Link oder der Pfad, also Verzeichnisstruktur angegeben werden muss?!
was ist Dir an http://www.sitemaps.org/protocol.html unklar?
Gehören diese externen Seiten zur Site?
Nein es sind Verweise zu anderen Domains, Linkpartner sozusagen.
Und die liegen außerhalb des Pfades der sitemap.xml, sind also hierin unzulässig.
Wenn ich hier nun disallow: /*? schreibe
Dann bittest Du Robots, die URL "http://www.domain.de/*?" nicht anzufordern.
Also wird diese Seite nicht indeziert, richtig?!
Der Platzhalter "*" ist sowohl in der URL als auch einer allgemeinen robots.txt nicht vorgesehen.
freundliche Grüße
Ingo
Hi,
Der Platzhalter "*" ist sowohl in der URL als auch einer allgemeinen robots.txt nicht vorgesehen.
nein, aber "*" als Zeichen ist im Path-Segment einer HTTP-URL durchaus gültig, wenn ich mich gerade nicht verlesen habe. Es steht in dem Fall für das Zeichen "*". Ob die Verwendung sinnvoll ist, sei dahingestellt.
Cheatah