Sven Rautenberg: "double content" mittels javascript vor suchmaschine verstecken

Beitrag lesen

Moin!

Geschützte Bereiche

Google kann sich nicht in geschützte Bereiche einloggen, wie du behauptest. Im Gegenteil: Google stellt die Anforderung an Inhalteanbieter, dass sie keine Unterscheidung machen zwischen ihrem Crawler (der durch den User-Agent identifizierbar ist) und normalen Menschen-Browsern, und allen Content, den der Crawler finden durfte, durch Folgen des Suchergebnislinks ebenfalls vollständig lesen dürfen.

Es wird also im Gegenteil eine große Ausnahmeregelung um die normale Zugangskontrolle herumprogrammiert, damit sich Google eben gerade nicht einloggen muss, und die Nutzer von Suchergebnisseiten ebenfalls nicht.

Flash

Flash crawlen funktioniert natürlich ein wenig, wenn in dem herunterladbaren Flashfilm a) aller Content als Text codiert auffindbar ist oder b) nachgeladene Flashfilme im initialen Film eindeutig identifizierbar mit URL aufgeführt sind und deshalb von einem Crawler gefunden werden können.

Das behebt dennoch nicht das Problem, dass ein Flashfilm den indizierten Content eventuell nur durch passendes Klicken einer nicht offensichtlichen UI-Kombination dem User anzeigt, d.h. der gefundene Content wird, anders als bei einer HTML-Seite, nicht sofort sichtbar.

Nach meiner persönlichen Erfahrung hat Google die Anzeige von Flash-Suchergebnissen entweder seitdem wieder aufgegeben, oder deutlich zurückgefahren, oder die Flash-Technologie von heute ist suchmaschinenunfreundlicher geworden, weil der initiale Flashfilm nur ein Programm-Framework zum Nachladen von jeglichem Inhalt ist. Mir sind seinerzeit Flash-Ergebnisse bei Suchen aufgefallen (insbesondere weil der angeblich gefundene Text am Ziel nicht auffindbar war), in letzter Zeit ist mir Flash als Suchergebnis aber nicht bewußt über den Weg gelaufen.

Frames

Frames zu crawlen ist simpel - das Frameset einer Inhaltsseite nachzuladen für viele Webmaster aber zu schwierig, als Suchender ist man gerne mal gezwungen, Javascript zu deaktivieren, um den Pauschal-Redirect auf die Startseite zu umgehen.

JavaScript

Die Analyse des gecrawlten Javascript-Codes offenbart natürlich darin eingebetteten HTML-Quellcode, fixe URLs, und sonstige statische Artefakte, die ohne Ausführung von JS-Programmcode offensichtlich sind.

Ich bezweifle aber stark, dass Google tatsächlich was anderes als statische Codeanalyse betreiben wird. Auf der einen Seite: Sowas zu entwickeln wäre vermutlich so effizient wie die Indizierung von Flash, sprich: Was man da eventuell rausbekommt, ist deshalb noch lange nicht für den User sichtbar. Auf der anderen Seite: Solange Javascript als ultimative Waffe für GUI und User Experience nicht unabdingbar ist, um auf einer Inhaltsseite navigieren zu können, solange der Googlebot also auch HTML mit crawlbarem Inhalt findet, solange ist die Notwendigkeit für so einen Javascript-Parser eher gering.

Google kann ganz viel, keine Frage. Und etliches von dem, was Google kann, ist vermutlich noch nicht öffentlich bekannt. Aber ich nehme mal stark an, dass all dies lediglich zur Verbesserung der Suchergebnisse insgesamt herangezogen wird, es aber immer noch darauf ankommt, auf die klassische Weise indiziert zu werden.

- Sven Rautenberg