T-Rex: Content auf Webseite vor Crawler verstecken

Moin,

gibt's die Möglichkeit Content auf einer Webseite mittels z.B. Rich Snippets vor dem Crawler zu "verstecken". Der Crawler soll den Content nicht erfassen um "Duplicate Content" zu verhindern.

Gruß
T-Rex

<nocrawl>
Gruß
T-Rex
</nocrawl>

  1. @@T-Rex:

    nuqneH

    gibt's die Möglichkeit Content auf einer Webseite mittels z.B. Rich Snippets vor dem Crawler zu "verstecken".

    War das eine Frage.

    http://de.selfhtml.org/diverses/robots.htm

    Qapla'

    --
    „Talente finden Lösungen, Genies entdecken Probleme.“ (Hans Krailsheimer)
    1. Moin Gunnar,

      die Robots kenn ich ja schon ;). Die geht ja auf die komplette URL. Ich wollte aber einen Bereich einer URL eben aussschliessen z.B. ein DIV Block.

      Achja einbinden per Iframe kommt für mich nicht in Frage. Also bei meinem aktuellen Problem jeden Falls nicht, da akzeptiere ich lieber den duplicate Content.

      Geht das?

      Gruß
      Crawler Steuerungstechniker
      T-Rex

      1. Om nah hoo pez nyeetz, T-Rex!

        die Robots kenn ich ja schon ;). Die geht ja auf die komplette URL. Ich wollte aber einen Bereich einer URL eben aussschliessen z.B. ein DIV Block.

        IMHO versteht google nur verschiedene URL mit demselben Inhalt als duplicated.

        Matthias

        --
        1/z ist kein Blatt Papier.

        1. Moin zusammen,

          Om nah hoo pez nyeetz, T-Rex!

          die Robots kenn ich ja schon ;). Die geht ja auf die komplette URL. Ich wollte aber einen Bereich einer URL eben aussschliessen z.B. ein DIV Block.

          IMHO versteht google nur verschiedene URL mit demselben Inhalt als duplicated.

          Matthias

          wenn ich mich recht erinnere, so crawlt Google nur den "statischen" Quelltext. Also alles was später per Ajax nachgeladen wurde ("dynamischer Quelltext"), ist für den Googlebot nicht relevant. Ich meine auch mal gelesen zu haben, dass Google darüber nachdenkt auch den "dynamischen" Quelltext ebenfalls zu indexieren/crawlen, glaube die Idee wurde aber wieder verworfen.

          1. An anderer Stelle haben schon einige Leute beweiße gehabt das Google den Ajax Anteil doch erfassen kann.

            Ich glaub aber nicht dass der dublicate Content nur mit der URL zu tun hat. Ich meine da schreibe ich einen sehr langen Text, duplizier in auf zwei unterschiedliche URLs und füge beim zweiten nur einen anderen Satz an.

            Vor 2 Jahren war ich noch in der Touristik Branche. Da gibt es wie wir alle durch die Werbung wissen sehr viele "ich hab den billigsten Preis" Portale. Die Portalbetreiber haben keinen Bock zu jedem Hotel neuen Content zu schreiben. Deshalb gibt es Anbieter die Hotel Content verkaufen. Da zahlt man eine Gebühr und kann dann das Hotel mit Text oder Eigenschaften verbinden.
            Tja und dieses Verfahren stand unter einem ganz schlechten Stern, da Google ankündigte auf so ein verfahren verstärkt zu achten. Mein Chef war damals echt schlecht drauf da sein CMS System diesen "automatischen" Content nicht angeboten hatte. Es war sogar oft der Grund wieso er das CMS nicht verkaufen konnte. Nachdem Google das Publik gemacht hat freute er sich 2 Fach. Zum einen hat er Entwicklungszeit gespart zum anderen hat er ein Verkaufsargument.

            Mein Arbeitgeber hingegen sieht die ganze Sache etwas zu streng. Wir verbiegen uns in der Entwicklung an einigen Stellen sehr stark, damit ja kein Satz zwei mal auf irgendeiner Unterseite unseres Portals auftaucht. Das ist wiederum auch zu drastisch. Irgendwann hab ich mal gehört das 80% des Contents gleich sein kann, mehr sollte es aber nicht sein. Ob diese Zahl stimmt sei mal dahin gestellt, ausrechnen werde ich es garantiert auch nicht, aber ein guter Richtwert ist es irgendwie doch... hmm...

            Aber ich merke schon es gibt anscheinend keine Möglichkeit Content vor dem Crawler zu verstecken.

            Gruß
            Crawlnix
            T-Rex

            1. Aber ich merke schon es gibt anscheinend keine Möglichkeit Content vor dem Crawler zu verstecken.

              An sich gibt es (zumindest) eine, die für die "netten" Crawler funktioniert. Von Google und Bling weiß ich, dass sie sich im User-Agent-Header-Feld ausweisen. Quasi könnte man serverseitig besagten Content einfach nicht ausgeben lassen.
              Ob das nun eine gute Variante wäre, was man beachten muss, usw. weiß ich allerdings nicht.

              Bei unbekannten Bots und solchen die sich nicht als Bots ausweisen, hat man dann natürlich keine Chance mehr.

              MfG
              bubble

              --
              If "god" had intended us to drink beer, he would have given us stomachs. - David Daye