O rastreador da web do Google não consegue encontrar minhas postagens do wordpress

O rastreador da web do Google não consegue encontrar minhas postagens do wordpress

Eu tenho um blog wordpress em meu próprio servidor, que usa links permanentes contendo caracteres chineses em URLs comohttp://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/.

Vários meses atrás, mudei todos os URLs com descrições em inglês, comohttp://techblog.zellux.czm.cn/2009/05/page-coloring/e instalei um plug-in para gerar sitemap.xml automaticamente e enviá-lo às Ferramentas do Google para webmasters.

Agora, vários meses depois, verifiquei novamente as Ferramentas do Google para webmasters, em Diagnóstico-> Rastreamento da Web, ele disse que não foi possível encontrar 41 URLs, todos contendo unicode de caracteres chineses como o anterior, e noVinculado decoluna eles eram todosindisponível. Quanto aos detalhes do Sitemaps->Sitemap, ele disse que apenas 15 dos 115 URLs foram indexados.

Então, meu problema é como fazer o Google parar de tentar rastrear URLs obsoletos, mas rastrear apenas aqueles especificados em sitemap.xml?

Responder1

Você pode usar um arquivo robots.txt para excluir páginas específicas do rastreamento. Ficaria assim:

User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3

Crie-o em qualquer editor de texto e carregue-o em seu diretório raiz (ou edite o arquivo robots.txt existente, se houver).

As Ferramentas do Google para webmasters também possuem uma ferramenta para gerar um arquivo robots.txt (Ferramentas > Gerar robots.txt)

informação relacionada