Sou um pouco vago quanto à sintaxe precisa do robots.txt, mas o que estou tentando alcançar é:
- Diga a todos os agentes de usuário para não rastrearem determinadas páginas
- Diga a certos agentes de usuário para não rastrearem nada
(basicamente, algumas páginas com enormes quantidades de dados nunca deveriam ser rastreadas; e alguns mecanismos de busca vorazes, mas inúteis, como o Cuil, nunca deveriam rastrear nada)
Se eu fizer algo assim:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
..fluirá conforme o esperado, com todos os agentes de usuário correspondendo à primeira regra e ignorando a página1, página2 e página3; e duas vezes correspondendo à segunda regra e pulando tudo?
Responder1
Parece que você tem uma compreensão melhor do que imagina. :)
Responder2
Hmm, depende do rastreador e se ele funciona apenas na primeira partida. O duplicador do IE pode ver a entrada curinga primeiro e não verificar mais nada, portanto, não veria o Disallow: /