Peppy: Suchmaschine mit Php erkennen

nabend zusammen,

ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
google) zu erkennen geben, wenn sie eine seite "besuchen".

sinn und zweck der sache: der spider der suchmaschine soll nicht
alles zu lesen bekommen. und dafür möchte ich gerne einen filter
programmieren.
das ganze muss in php funktionieren. htaccess hilft mir hier nicht
weiter.

danke schonmal,

peppy

  1. Hallo Peppy!

    ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
    google) zu erkennen geben, wenn sie eine seite "besuchen".

    Schau einfach mal in diverse Statistiken wie http://stats.selfhtml.org/webalizer/de.selfhtml.org/agent_200407.html.
    Außerdem könntest Du noch eine robots.txt bauen, und damit dann "brave" Robots von bestimmten Bereichen komplett ausschließen (siehe auch http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm).
    Weiteres Material solltest Du über http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Suchmaschinen+User+Agent&lang=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&hits=1000 oder Deine bevorzugte Suchmaschine finden können.

    MfG
    Götz

    --
    Losung für Mittwoch, 21. Juli 2004
    Ich will dich preisen unter den Völkern, o Herr, und deinem Namen lobsingen. (Psalm 18,50)
    Als Paulus die Erscheinung gesehen hatte, da suchten wir sogleich nach Mazedonien zu reisen, gewiss, dass uns Gott dahin berufen hatte, ihnen das Evangelium zu predigen. (Apostelgeschichte 16,10)
    (http://www.losungen.de/heute.php3)
    1. hallo und danke für deine ausführliche antwort!

      Schau einfach mal in diverse Statistiken wie http://stats.selfhtml.org/webalizer/de.selfhtml.org/agent_200407.html.

      das hilft mir warscheinlich weiter. ich muss mal schauen, wie ich
      in php die abfrage stelle, um google zu erkennen.

      Außerdem könntest Du noch eine robots.txt bauen, und damit dann "brave" Robots von bestimmten Bereichen komplett ausschließen (siehe auch http://aktuell.de.selfhtml.org/artikel/projekt/robots/index.htm).

      das ist für meinen zweck nicht das richtige. damit kann ich ja nur
      ganze seiten ausschliessen. ich möchte aber nur einen teil einer
      php-seite nicht ausgeben, wenn die seite von einer suchmaschine
      gelesen wird.

      Weiteres Material solltest Du über http://suche.de.selfhtml.org/cgi-bin/such.pl?suchausdruck=Suchmaschinen+User+Agent&lang=on&feld=alle&index_1=on&index_2=on&index_3=on&index_4=on&index_5=on&index_6=on&index_7=on&hits=1000 oder Deine bevorzugte Suchmaschine finden können.

      darüber hab ich die seite http://forum.de.selfhtml.org/archiv/2004/7/83638/#m489269
      gefunden. da scheint was interessantes bei zu sein.

      gruss,
      peppy

  2. Hallo,

    ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
    google) zu erkennen geben, wenn sie eine seite "besuchen".

    Das erkennst du am UserAgent.

    sinn und zweck der sache: der spider der suchmaschine soll nicht
    alles zu lesen bekommen. und dafür möchte ich gerne einen filter
    programmieren.

    Für solche Sachen fliegst du bei Google aus dem Index,
    verwende stattdessen die robots.txt, wenn du darauf keinen
    Zugriff hast, vergiss es.

    Gruß
    Alexander Brock

    --

    SelfCode: sh:( fo:) ch:? rl:( br:> n4:? ie:{ mo:} va:) de:> zu:| fl:{ ss:( ls:[ js:(
    http://emmanuel.dammerer.at/selfcode.html
    Deshalb können Pinguine nicht fliegen:
    Was nicht fliegt kann auch nicht abstürzen
    <img src="http://www.againsttcpa.com/images/AgainstTCPA-Log01Small.gif" border="0" alt="">
    http://againsttcpa.com
    1. Hallo zusammen

      Für solche Sachen fliegst du bei Google aus dem Index,

      Wird denn das 'von Hand' nachgeprüft? Oder wie?
      Werden da auch andere Tests gemacht? (Etwa ob zuviel Text mit 'visibility:hidden' ausgeblendet ist?)

      Liebe Grüsse
      Pascal

      1. Hallo,

        Wird denn das 'von Hand' nachgeprüft? Oder wie?

        Es gibt Webmaster, denen solche Praktiken bei Konkurreten
        auffallen und das dann Google melden.

        Andererseits könnte Google sich auch einmal  als M$IE 6 und
        einmal als Googlebot ausgeben und die angezeigten Seiten
        vergleichen (ich hab keine Ahnung, ob das gemacht wird).

        Gruß
        Alexander Brock

        --

        SelfCode: sh:( fo:) ch:? rl:( br:> n4:? ie:{ mo:} va:) de:> zu:| fl:{ ss:( ls:[ js:(
        http://emmanuel.dammerer.at/selfcode.html
        Deshalb können Pinguine nicht fliegen:
        Was nicht fliegt kann auch nicht abstürzen
        <img src="http://www.againsttcpa.com/images/AgainstTCPA-Log01Small.gif" border="0" alt="">
        http://againsttcpa.com
    2. morgen,

      Das erkennst du am UserAgent.

      ja, aber wie ist dann die genaue bezeichnung von google?

      Für solche Sachen fliegst du bei Google aus dem Index,

      nicht, dass ich dir nicht glaube, aber wie will denn google
      erkennen, dass ich nur für google etwas ausblende? es könnte
      ja auch für einen anderen browser sein.

      gruss,

      peppy

  3. Hallo

    nabend zusammen,

    ich würde gerne wissen, wie sich diverse suchmaschinen (insbesondere
    google) zu erkennen geben, wenn sie eine seite "besuchen".

    in meinen Logs taucht oft

    Googlebot/2.1 (+http://www.google.com/bot.html)
    Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    Googlebot/1.0 (googlebot@googlebot.com http://googlebot.com/)

    auf

    lese einfach "$_SERVER['HTTP_USER_AGENT']" aus und schaue ob "Googlebot" drin vorkommt