Acabei de me registrar e tenho uma pergunta estúpida.
Por que o Google não mostra informações das páginas de “histórico de visualizações” da Wikipedia?
Por exemplo, emesta página de históriase eu pesquisar qualquer texto no Google eunão vou conseguirresultado.
Obrigado.
Responder1
O motor do site solicita especificamente que essas páginas não sejam indexadas. A página de histórico possui uma tag de cabeçalho reconhecida pelos mecanismos de pesquisa:
<meta name="robots" content="noindex,nofollow"/>
( noindex
exclui o conteúdo direto da página e nofollow
também informa ao rastreador de pesquisa para ignorar quaisquer outros linksdeesta página. O último atributo também pode ser anexado a links <a> individuais.)
Uma possível razão é que os mecanismos de pesquisa podem não conseguir distinguir facilmente as páginas "atuais" e "históricas", de modo que os resultados podem ser inundados por dados obsoletos que você não conseguiria remover.
Outra razão é que o MediaWiki armazena o histórico em formato compactado delta, e quanto mais antigo for um item do histórico, mais CPU será necessária para descompactá-lo. (AFAIK, existem pontos de verificação "completos" periódicos para que não entrem em espiral até o infinito, mas ainda assim é um uso de recursos diferente de zero.) Multiplique isso por possivelmente centenas ou milhares de revisões para cada página wiki, e o rastreador poderá sobrecarregar rapidamente o servidor.
Finalmente, além da seção de histórico, a Wikipedia também usa o /robots.txt
arquivo para excluir a indexação de determinados URLs. Por exemplo,seu arquivo robots.txtexclui todos os tópicos de "Voto para exclusão", páginas de "Solicitação de alteração de nome de usuário" e outros.