O bot do Google tropeça em um robots.txt perfeitamente normal e depois em um robots.txt inexistente

O bot do Google tropeça em um robots.txt perfeitamente normal e depois em um robots.txt inexistente

Tenho dois nomes de domínio apontando para o mesmo servidor virtual. Um deles,http://ilarikaila.com, é um site de folheto funcional que fiz para um amigo. Eu usei o outro,http://teemuleisti.com, testar o site antes de torná-lo público – em retrospectiva, provavelmente uma má ideia.

Por muito tempo, o Google-bot ficou confuso de duas maneiras sobre a busca por "ilari kaila", mas enquanto eu escrevia isso, o segundo problema parece ter desaparecido (adicionado na edição:não, não tem).

Confusão o primeiro

Os resultados de pesquisa do Google para "ilari kaila" incluem ilarikaila.com, mas apenas na terceira página dos resultados e, em vez de um snippet do site, o resultado inclui o texto "Uma descrição para este resultado não está disponível por causa de o robots.txt deste site – saiba mais.".

O conteúdo do robots.txtarquivo foi simplesmente

User-agent: *
Allow: /

o que certamente não deve impedir nenhum bot de listar o conteúdo do site. Na verdade, quando os termos de pesquisa "ilari kaila" foram introduzidosbing.com, o site apareceu como o primeiro resultado da pesquisa (e o stlil aparece), e um snippet correto foi e é mostrado.

Há alguns dias, removi robots.txtcompletamente (ou melhor, renomeei-o not_robots.txt), mas o Google ainda mostra o mesmo resultado, referindo-se ao robots.txt. (Esta é provavelmente a razão pela qual o site só aparece na terceira página dos resultados da pesquisa.)

Confusão o segundo

Originalmente, as solicitações para teemuleisti.com mostravam as mesmas páginas de ilarikaila.com, porque eu não havia escrito um serverbloco separado para o primeiro em meu nginx.confarquivo. Fiz isso há algumas semanas e escrevi uma página HTML muito simples para o site anterior.

No entanto, os resultados de pesquisa do Google para "ilari kaila" mostraram links para o site teemuleisti.com cerca de duas semanas depois de eu ter feito o anterior, e até uma hora atrás. No entanto, este problema parece ter sido resolvido (adicionado na edição:não, não foi) enquanto eu estava escrevendo esta pergunta, talvez porque acabei de adicionar o seguinte redirecionamento ao nginx.confarquivo do servidor:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

para redirecionar resultados de pesquisa, comohttp://teemuleisti.com/press(que mostrou um trecho de conteúdo que está realmente emhttp://ilarikaila.com/press) para a única página teemuleisti.com, que agora informa os visitantes sobre o problema com a indexação do Google e possui um link para o site correto.

Isso parece ter acertado o Google-bot nesse problema – embora eu não consiga ver que diferença isso fez, já que não há subpáginas em teemuleisti.com há semanas – mas qual é a confusão robots.txt?

Adicionado na edição:Se eu pesquisar "ilari kaila compositor" no Google, a segunda página dos resultados da pesquisa ainda aponta para teemuleisti.com, portanto, esse problema também não foi resolvido.

Responder1

Não existe algo como Allowno robots.txt, portanto, o seu robots.txté inválido. Isso confunde os bots, pois apenas espera Agente Disallowdescreve. Você deve remover o robots.txt ou deixá-lo vazio se quiser que todo o contexto seja indexado.

Mais informações:http://www.robotstxt.org/robotstxt.html

informação relacionada