
Eu tenho um blog wordpress em meu próprio servidor, que usa links permanentes contendo caracteres chineses em URLs comohttp://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/.
Vários meses atrás, mudei todos os URLs com descrições em inglês, comohttp://techblog.zellux.czm.cn/2009/05/page-coloring/e instalei um plug-in para gerar sitemap.xml automaticamente e enviá-lo às Ferramentas do Google para webmasters.
Agora, vários meses depois, verifiquei novamente as Ferramentas do Google para webmasters, em Diagnóstico-> Rastreamento da Web, ele disse que não foi possível encontrar 41 URLs, todos contendo unicode de caracteres chineses como o anterior, e noVinculado decoluna eles eram todosindisponível. Quanto aos detalhes do Sitemaps->Sitemap, ele disse que apenas 15 dos 115 URLs foram indexados.
Então, meu problema é como fazer o Google parar de tentar rastrear URLs obsoletos, mas rastrear apenas aqueles especificados em sitemap.xml?
Responder1
Você pode usar um arquivo robots.txt para excluir páginas específicas do rastreamento. Ficaria assim:
User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3
Crie-o em qualquer editor de texto e carregue-o em seu diretório raiz (ou edite o arquivo robots.txt existente, se houver).
As Ferramentas do Google para webmasters também possuem uma ferramenta para gerar um arquivo robots.txt (Ferramentas > Gerar robots.txt)