@@Auge,
Dann muss ich also davon ausgehen, dass Google entgegen eigener Aussagen die in der robots.txt festgelegten Regeln nicht (vollständig) befolgt.
Die Regeln werden von Google vollständig befolgt. Ich glaube du interpretierst die Regeln einfach falsch und gehst deshalb davon aus, dass Google die Regeln nicht vollständig befolgt. Die Regeln in der robots.txt beziehen sich ausschließlich auf das Crawling. Mit der Indexierung haben die Regeln in der robots.txt nichts zu tun.
Wenn ein Verzeichnis per robots.txt von der Indexierung durch Suchroboter ausgeschlossen werden soll,
Mit der robots.txt kannst du nur vom Crawling ausschließen nicht vom Indexieren.
aber nach Bekanntmachung dieses Wunsches per robots.txt dennoch Suchergebnisse für die Seite vorliegen, folgt der betreffende Suchmaschinenroboter dem Wunsch nicht.
Doch er folgt dem Wunsch Crawling Budget einzusparen. Wenn die Seite dennoch über Backlinks indexiert wird passiert das ohne Crawling.
Denn dann sollte er bei Kenntnis der Regeln der robots.txt betreffende Seiten auch dann nicht indexieren, wenn sie von anderen Seiten (zumindest der selben Domain) aus verlinkt sind.
Sinnig finde ich das auch nicht, deshalb die Fragen. In der Praxis ist das allerdings IMMER so.
In diesem Artikel:
https://support.google.com/webmasters/answer/6062608?hl=de
schreibt Google folgendes:
Eine robots.txt-Datei teilt Suchmaschinen-Crawlern mit, welche Seiten oder Dateien der Crawler von Ihrer Website anfordern kann und welche nicht. Dies dient hauptsächlich dazu, eine Überlastung Ihrer Website mit Anfragen zu vermeiden. Es handelt sich dabei nicht um einen Mechanismus, um eine Website aus Google auszuschließen. Wenn Sie eine Website aus Google ausschließen möchten, verwenden Sie am besten noindex-Tags oder -Anweisungen oder schützen Sie Ihre Seite mit einem Passwort.