El robot de Google se activa en un archivo robots.txt perfectamente normal y luego en un archivo robots.txt inexistente

El robot de Google se activa en un archivo robots.txt perfectamente normal y luego en un archivo robots.txt inexistente

Tengo dos nombres de dominio que apuntan al mismo servidor virtual. Uno de ellos,http://ilarikaila.com, es un sitio web de folletos funcional que hice para un amigo. Usé el otrohttp://teemuleisti.com, para probar el sitio antes de hacerlo público; en retrospectiva, probablemente sea una mala idea.

Durante mucho tiempo, el robot de Google estuvo confundido de dos maneras acerca de la búsqueda de "ilari kaila", pero mientras escribía esto, el segundo problema parece haber desaparecido (agregado en la edición:no, no es así).

confusión la primera

Los resultados de búsqueda de Google para "ilari kaila" incluyen ilarikaila.com, pero sólo en la tercera página de los resultados, y en lugar de un fragmento del sitio, el resultado incluye el texto "Una descripción para este resultado no está disponible debido a robots.txt de este sitio: obtenga más información".

El contenido del robots.txtarchivo era simplemente

User-agent: *
Allow: /

lo que ciertamente no debería impedir que ningún robot enumere el contenido del sitio. De hecho, cuando los términos de búsqueda "ilari kaila" se introdujeron enbing.com, el sitio apareció como el primer resultado de búsqueda (y stlil lo hace), y se mostró y se muestra un fragmento correcto.

Hace un par de días, lo eliminé robots.txtpor completo (o mejor dicho, le cambié el nombre not_robots.txt), pero Google sigue mostrando el mismo resultado, refiriéndose a robots.txt. (Esta es probablemente la razón por la que el sitio sólo aparece en la tercera página de los resultados de búsqueda).

Confusión la segunda

Originalmente, las solicitudes a teemuleisti.com mostraban las mismas páginas que ilarikaila.com, porque no había escrito un serverbloque separado para el primero en mi nginx.confarchivo. Lo hice hace un par de semanas y escribí una página HTML muy simple para el sitio anterior.

Sin embargo, los resultados de búsqueda de Google para "ilari kaila" mostraron enlaces al sitio teemuleisti.com incluso unas dos semanas después de que hice lo anterior, y hasta hace una hora. Sin embargo, este problema parece haberse resuelto (agregado en la edición:no, no es así) mientras escribía esta pregunta, tal vez porque acabo de agregar la siguiente redirección al nginx.confarchivo del servidor:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

para redirigir resultados de búsqueda comohttp://teemuleisti.com/press(que mostró un fragmento de contenido que en realidad está enhttp://ilarikaila.com/press) a la única página de teemuleisti.com, que ahora informa a los visitantes sobre el problema con la indexación de Google y tiene un enlace al sitio correcto.

Esto parece haber solucionado el problema con el robot de Google, aunque no veo qué diferencia hizo, ya que no ha habido subpáginas en teemuleisti.com durante semanas, pero ¿a qué se debe esta confusión robots.txt?

Agregado al editar:Si busco en Google "ilari kaila compositor", la segunda página de los resultados de búsqueda todavía apunta a teemuleisti.com, por lo que este problema tampoco se ha resuelto aún.

Respuesta1

No existen cosas como Allowen robots.txt, por lo que no robots.txtes válido. Esto confunde a los robots, ya que solo espera Agentdescripciones Disallow. Debe eliminar robots.txt o dejarlo vacío si desea que se indexe todo el contexto.

Más información:http://www.robotstxt.org/robotstxt.html

información relacionada