Die Frage ist eigentlich recht simpel - wie erkennt Google doppelten Inhalt (doublicated Content)?
Indem sie den Inhalt vergleichen?
Mein Kollege meint, dass wir alle Seiten welche eine Filterfunktionalität haben aus dem Google Index rausnehmen müssen aufgrund doppelter Inhalte.
Das ist unsinn - doppelter Inhalt bezieht sich nur auf "gleiche Inhalte" auf unterschiedlichen Domains.
Sprich er meint, dass Google die Seite mit 100 News und die Seite mit 20 News als doppelten Content ansieht und die komplette Domain abstraft.
Nein.
Meines Wissens nach bildet Google einen Hash um so doppelten Inhalt zu kontrollieren.
Dann weißt du mehr als jeder andere - was auch immer Google tut, ich würde viel darauf wetten, dass kein "Hash aus dem Inhalt" gebildet wird, denn schon die geringste Abweichung, würde einen völlig anderen Streuwert erstellen.
Google zerlegt den Inhalt in Satzfragmente ("Shingles") und vergleicht diese miteinander (Wobei in diesen auch Wörter durch z.B durch Synonyme ersetzt werden) - so lässt sich auch z.B. eine geänderte Satzstellung als doppelter Inhalt identifizeren. Aber wie gesagt: das zählt nur Domainübergreifend.
Wenn man also einen kompletten Newsblock entfernt, dann kann der Hash nicht mehr stimmen. Ergo sind die zwei Seiten für Google komplett unterschiedlich.
Siehe oben.
Bitte um etwas Licht.
http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=66359
Im endeffekt reicht es, auf sämtlichen Archivunterseiten die Archivstartseite als "canonical" zu definieren, wenn man will, dass diese "primär" in den Suchergebnisseiten erscheint - aber selbst wenn man das nicht tut, kapiert Google das schon ziemlich gut selbst.