Tenho dois nomes de domínio apontando para o mesmo servidor virtual. Um deles,http://ilarikaila.com, é um site de folheto funcional que fiz para um amigo. Eu usei o outro,http://teemuleisti.com, testar o site antes de torná-lo público – em retrospectiva, provavelmente uma má ideia.
Por muito tempo, o Google-bot ficou confuso de duas maneiras sobre a busca por "ilari kaila", mas enquanto eu escrevia isso, o segundo problema parece ter desaparecido (adicionado na edição:não, não tem).
Confusão o primeiro
Os resultados de pesquisa do Google para "ilari kaila" incluem ilarikaila.com, mas apenas na terceira página dos resultados e, em vez de um snippet do site, o resultado inclui o texto "Uma descrição para este resultado não está disponível por causa de o robots.txt deste site – saiba mais.".
O conteúdo do robots.txt
arquivo foi simplesmente
User-agent: *
Allow: /
o que certamente não deve impedir nenhum bot de listar o conteúdo do site. Na verdade, quando os termos de pesquisa "ilari kaila" foram introduzidosbing.com, o site apareceu como o primeiro resultado da pesquisa (e o stlil aparece), e um snippet correto foi e é mostrado.
Há alguns dias, removi robots.txt
completamente (ou melhor, renomeei-o not_robots.txt
), mas o Google ainda mostra o mesmo resultado, referindo-se ao robots.txt. (Esta é provavelmente a razão pela qual o site só aparece na terceira página dos resultados da pesquisa.)
Confusão o segundo
Originalmente, as solicitações para teemuleisti.com mostravam as mesmas páginas de ilarikaila.com, porque eu não havia escrito um server
bloco separado para o primeiro em meu nginx.conf
arquivo. Fiz isso há algumas semanas e escrevi uma página HTML muito simples para o site anterior.
No entanto, os resultados de pesquisa do Google para "ilari kaila" mostraram links para o site teemuleisti.com cerca de duas semanas depois de eu ter feito o anterior, e até uma hora atrás. No entanto, este problema parece ter sido resolvido (adicionado na edição:não, não foi) enquanto eu estava escrevendo esta pergunta, talvez porque acabei de adicionar o seguinte redirecionamento ao nginx.conf
arquivo do servidor:
server {
listen 80;
server_name teemuleisti.com www.teemuleisti.com;
...
location = /index.html {
break;
}
location ~* ^/(.+)$ {
rewrite ^ http://teemuleisti.com redirect;
}
}
para redirecionar resultados de pesquisa, comohttp://teemuleisti.com/press(que mostrou um trecho de conteúdo que está realmente emhttp://ilarikaila.com/press) para a única página teemuleisti.com, que agora informa os visitantes sobre o problema com a indexação do Google e possui um link para o site correto.
Isso parece ter acertado o Google-bot nesse problema – embora eu não consiga ver que diferença isso fez, já que não há subpáginas em teemuleisti.com há semanas – mas qual é a confusão robots.txt
?
Adicionado na edição:Se eu pesquisar "ilari kaila compositor" no Google, a segunda página dos resultados da pesquisa ainda aponta para teemuleisti.com, portanto, esse problema também não foi resolvido.
Responder1
Não existe algo como Allow
no robots.txt, portanto, o seu robots.txt
é inválido. Isso confunde os bots, pois apenas espera Agent
e Disallow
descreve. Você deve remover o robots.txt ou deixá-lo vazio se quiser que todo o contexto seja indexado.
Mais informações:http://www.robotstxt.org/robotstxt.html