Suchmaschine mit Php erkennen
Peppy
- php
nabend zusammen,
ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
google) zu erkennen geben, wenn sie eine seite "besuchen".
sinn und zweck der sache: der spider der suchmaschine soll nicht
alles zu lesen bekommen. und dafür möchte ich gerne einen filter
programmieren.
das ganze muss in php funktionieren. htaccess hilft mir hier nicht
weiter.
danke schonmal,
peppy
Hallo Peppy!
ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
google) zu erkennen geben, wenn sie eine seite "besuchen".
Schau einfach mal in diverse Statistiken wie http://stats.selfhtml.org/webalizer/de.selfhtml.org/agent_200407.html.
Außerdem könntest Du noch eine robots.txt bauen, und damit dann "brave" Robots von bestimmten Bereichen komplett ausschließen (siehe auch http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm).
Weiteres Material solltest Du über http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Suchmaschinen+User+Agent&lang=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&hits=1000 oder Deine bevorzugte Suchmaschine finden können.
MfG
Götz
hallo und danke für deine ausführliche antwort!
Schau einfach mal in diverse Statistiken wie http://stats.selfhtml.org/webalizer/de.selfhtml.org/agent_200407.html.
das hilft mir warscheinlich weiter. ich muss mal schauen, wie ich
in php die abfrage stelle, um google zu erkennen.
Außerdem könntest Du noch eine robots.txt bauen, und damit dann "brave" Robots von bestimmten Bereichen komplett ausschließen (siehe auch http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm).
das ist für meinen zweck nicht das richtige. damit kann ich ja nur
ganze seiten ausschliessen. ich möchte aber nur einen teil einer
php-seite nicht ausgeben, wenn die seite von einer suchmaschine
gelesen wird.
Weiteres Material solltest Du über http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Suchmaschinen+User+Agent&lang=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&hits=1000 oder Deine bevorzugte Suchmaschine finden können.
darüber hab ich die seite http://forum.de.selfhtml.org/archiv/2004/7/83638/#m489269
gefunden. da scheint was interessantes bei zu sein.
gruss,
peppy
Hallo,
ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
google) zu erkennen geben, wenn sie eine seite "besuchen".
Das erkennst du am UserAgent.
sinn und zweck der sache: der spider der suchmaschine soll nicht
alles zu lesen bekommen. und dafür möchte ich gerne einen filter
programmieren.
Für solche Sachen fliegst du bei Google aus dem Index,
verwende stattdessen die robots.txt, wenn du darauf keinen
Zugriff hast, vergiss es.
Gruß
Alexander Brock
Hallo zusammen
Für solche Sachen fliegst du bei Google aus dem Index,
Wird denn das 'von Hand' nachgeprüft? Oder wie?
Werden da auch andere Tests gemacht? (Etwa ob zuviel Text mit 'visibility:hidden' ausgeblendet ist?)
Liebe Grüsse
Pascal
Hallo,
Wird denn das 'von Hand' nachgeprüft? Oder wie?
Es gibt Webmaster, denen solche Praktiken bei Konkurreten
auffallen und das dann Google melden.
Andererseits könnte Google sich auch einmal als M$IE 6 und
einmal als Googlebot ausgeben und die angezeigten Seiten
vergleichen (ich hab keine Ahnung, ob das gemacht wird).
Gruß
Alexander Brock
morgen,
Das erkennst du am UserAgent.
ja, aber wie ist dann die genaue bezeichnung von google?
Für solche Sachen fliegst du bei Google aus dem Index,
nicht, dass ich dir nicht glaube, aber wie will denn google
erkennen, dass ich nur für google etwas ausblende? es könnte
ja auch für einen anderen browser sein.
gruss,
peppy
Hallo
nabend zusammen,
ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
google) zu erkennen geben, wenn sie eine seite "besuchen".
in meinen Logs taucht oft
Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.googlebot.com/bot.html)
Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/)
auf
lese einfach "$_SERVER['HTTP_USER_AGENT']" aus und schaue ob "Googlebot" drin vorkommt