Quais bots e spiders devo bloquear no robots.txt?

Quais bots e spiders devo bloquear no robots.txt?

A fim de:

  1. Aumentar a segurança do meu site
  2. Reduza os requisitos de largura de banda
  3. Evite a coleta de endereços de e-mail

Responder1

Nenhum bot que esteja coletando e-mails ou testando vulnerabilidades em seu site respeitará seu robots.txt. Na verdade, esses bots maliciosos analisam o robots.txt para mapear melhor o seu site. Se algum ponto você tiver um Disallow:this será usado para atacar melhor o seu site. Um hacker que está acessando seu site manualmente deve gastar mais tempo examinando quaisquer arquivos/diretórios que você está tentando proibir.

Responder2

O robots.txt não aumentará a segurança do seu site nem impedirá a coleta de endereços de e-mail. robots.txt é um guia para os mecanismos de pesquisa pularem seções do seu site. Eles não serão indexados e deverão ser usados ​​para quaisquer seções que você não queira que apareçam em mecanismos de pesquisa públicos.

No entanto, isso não impedirá de forma alguma que outros bots baixem todo o seu site para aumentar a segurança ou impedir a coleta de e-mails. Para aumentar a segurança, você precisa adicionar autenticação e permitir apenas usuários autenticados além das seções seguras. Para evitar a coleta de endereços de e-mail, não coloque e-mails em texto simples (ou texto facilmente decifrável) em um site.

Responder3

robots.txt não irá ajudá-lo com segurança. Qualquer bot que queira fazer algo obscuro irá ignorá-lo de qualquer maneira.

Responder4

Em vez de robots.txt, talvez você precise usar códigos CAPTCHA.

informação relacionada