Archivo robots.txt con reglas más restrictivas para ciertos agentes de usuario

Archivo robots.txt con reglas más restrictivas para ciertos agentes de usuario

Soy un poco vago sobre la sintaxis precisa de robots.txt, pero lo que intento lograr es:

  • Dile a todos los agentes de usuario que no rastreen determinadas páginas
  • Dile a ciertos agentes de usuario que no rastreen nada

(Básicamente, algunas páginas con enormes cantidades de datos nunca deberían rastrearse; y algunos motores de búsqueda voraces pero inútiles, por ejemplo Cuil, nunca deberían rastrear nada)

Si hago algo como esto:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

...fluirá como se esperaba, con todos los agentes de usuario cumpliendo la primera regla y omitiendo la página1, la página2 y la página3; ¿Y el doble que cumple la segunda regla y se salta todo?

Respuesta1

Parecería que lo comprende mejor de lo que cree. :)

Respuesta2

Hmm, depende del rastreador y de si solo se realiza en la primera coincidencia. Es posible que IE doubleler vea la entrada comodín primero y no verifique más, por lo que no verá Disallow: /

información relacionada