El rastreador web de Google no puede encontrar mis publicaciones de WordPress

El rastreador web de Google no puede encontrar mis publicaciones de WordPress

Tengo un blog de WordPress en mi propio servidor, que utiliza enlaces permanentes que contienen caracteres chinos en URL comohttp://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/.

Hace varios meses cambié todas las URL con descripciones en inglés comohttp://techblog.zellux.czm.cn/2009/05/page-coloring/, e instalé un complemento para generar sitemap.xml automáticamente y lo envié a Google Webmaster Tools.

Ahora, varios meses después, revisé nuevamente las Herramientas para webmasters de Google, en Diagnóstico->Rastreo web dijo que no pudo encontrar 41 URL, todas las cuales contenían Unicode de caracteres chinos como el anterior, y en elVinculado desdecolumna eran todosindisponible. En cuanto a Sitemaps->Detalles del mapa del sitio, decía que solo 15 de 115 URL estaban indexadas.

Entonces, mi problema es ¿cómo hacer que Google deje de intentar rastrear URL obsoletas pero solo rastree aquellas especificadas en sitemap.xml?

Respuesta1

Puede utilizar un archivo robots.txt para excluir del rastreo páginas específicas. Se vería así:

User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3

Cree esto en cualquier editor de texto y cárguelo en su directorio raíz (o edite el archivo robots.txt existente, si lo hay).

Webmaster Tools también tiene una herramienta para generar un archivo robots.txt (Herramientas > Generar robots.txt)

información relacionada