Soy un poco vago sobre la sintaxis precisa de robots.txt, pero lo que intento lograr es:
- Dile a todos los agentes de usuario que no rastreen determinadas páginas
- Dile a ciertos agentes de usuario que no rastreen nada
(Básicamente, algunas páginas con enormes cantidades de datos nunca deberían rastrearse; y algunos motores de búsqueda voraces pero inútiles, por ejemplo Cuil, nunca deberían rastrear nada)
Si hago algo como esto:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
...fluirá como se esperaba, con todos los agentes de usuario cumpliendo la primera regla y omitiendo la página1, la página2 y la página3; ¿Y el doble que cumple la segunda regla y se salta todo?
Respuesta1
Parecería que lo comprende mejor de lo que cree. :)
Respuesta2
Hmm, depende del rastreador y de si solo se realiza en la primera coincidencia. Es posible que IE doubleler vea la entrada comodín primero y no verifique más, por lo que no verá Disallow: /