Arquivo robots.txt com regras mais restritivas para determinados agentes de usuário

Arquivo robots.txt com regras mais restritivas para determinados agentes de usuário

Sou um pouco vago quanto à sintaxe precisa do robots.txt, mas o que estou tentando alcançar é:

  • Diga a todos os agentes de usuário para não rastrearem determinadas páginas
  • Diga a certos agentes de usuário para não rastrearem nada

(basicamente, algumas páginas com enormes quantidades de dados nunca deveriam ser rastreadas; e alguns mecanismos de busca vorazes, mas inúteis, como o Cuil, nunca deveriam rastrear nada)

Se eu fizer algo assim:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

..fluirá conforme o esperado, com todos os agentes de usuário correspondendo à primeira regra e ignorando a página1, página2 e página3; e duas vezes correspondendo à segunda regra e pulando tudo?

Responder1

Parece que você tem uma compreensão melhor do que imagina. :)

Responder2

Hmm, depende do rastreador e se ele funciona apenas na primeira partida. O duplicador do IE pode ver a entrada curinga primeiro e não verificar mais nada, portanto, não veria o Disallow: /

informação relacionada