Steel: Crawler im Forum

Beitrag lesen

heyho!

Jeder Crawler wird irgendwo eine Liste aller bereits besuchten Seiten speichern. Problematisch wird es erst, wenn er auf irgendwelche kaputten Scripte trifft, die Endlosschleifen mit gleichen Seiten unter immer wieder unterschiedlichen URLs produzieren.

Deshalb sind Adressen wie forum.php?id=xxx fuer crawler boese. Stell dir z.b. das Selfhtml Forum vor. In einer Ansicht die alle Antworten zeigt. (wie z.b. bei der Archivsuche) Man sieht einen ellenlangen Text mit lauter Links. die sind auch alle unterschiedlich fuehren aber doch nur zu Inhalten, die man gerade schon hatte. Je nach Software (vielelicht ist eine ID ne ganze Rubrik, ne andere nur ein einzelner Beitrag in dieser) kommt der arme Crawler teilweise ordentlich ins schwitzen und zieht auch den ein oder enderen unnoetigen Kreis.

Eine fuer suchmaschinen optimale Seite hat deshalb auch soetwas nicht, sondern besitzt schoene lesbare URLS. Was fuer Menschen gut ist, ist auch fuer die meisten Crawler nicht schlecht. Letztere finden allerdings auch Unterverzeichnisse die /001B58807M06 heissen genauso toll wie ein Mensch das Verzeichnis /newsvom20juni.