Google-bot은 완벽하게 정상적인 robots.txt를 탐색한 다음 존재하지 않는 robots.txt를 탐색합니다.

Google-bot은 완벽하게 정상적인 robots.txt를 탐색한 다음 존재하지 않는 robots.txt를 탐색합니다.

동일한 가상 서버를 가리키는 두 개의 도메인 이름이 있습니다. 그들 중 하나,http://ilarikaila.com,은 제가 친구를 위해 만든 브로셔 웹사이트입니다. 다른 하나를 사용했는데,http://teemuleisti.com, 사이트를 공개하기 전에 시험해 보는 것 – 돌이켜보면 아마도 나쁜 생각이었을 것입니다.

오랫동안 Google-bot이 "ilari kaila" 검색에 대해 두 가지 방법으로 혼란을 겪었는데, 이 글을 쓰는 동안 두 번째 문제가 사라진 것 같습니다(편집 시 추가됨:아니요, 그렇지 않았습니다).

혼란이 먼저

"ilari kaila"에 대한 Google 검색 결과에는 ilarikaila.com이 포함되어 있지만 결과의 세 번째 페이지에만 결과에 사이트의 일부 대신 "이 결과에 대한 설명은 다음과 같은 이유로 사용할 수 없습니다"라는 텍스트가 포함됩니다. 이 사이트의 robots.txt – 자세히 알아보세요.".

파일 내용은 robots.txt간단했습니다

User-agent: *
Allow: /

이는 봇이 사이트 콘텐츠를 나열하는 것을 방해해서는 안 됩니다. 실제로 "ilari kaila"라는 검색어가 입력되었을 때bing.com, 사이트가 첫 번째 검색 결과로 나타났으며(stlil도 마찬가지) 올바른 스니펫이 있었고 표시되었습니다.

며칠 전에 robots.txt아예 삭제(혹은 이름을 바꿨다 not_robots.txt)했는데, 구글에서는 robots.txt를 참조하면서 여전히 같은 결과를 보여주고 있습니다. (아마도 해당 사이트가 검색결과 세 번째 페이지에만 나타나는 이유일 것입니다.)

두 번째 혼란

원래 teemuleisti.com에 대한 요청에는 ilarikaila.com과 동일한 페이지가 표시되었습니다. 왜냐하면 제가 파일 server에 전자에 대한 별도의 블록을 작성하지 않았기 때문입니다 nginx.conf. 나는 몇 주 전에 그렇게 했으며 이전 사이트에 대한 매우 간단한 HTML 페이지 하나를 작성했습니다.

그럼에도 불구하고 "ilari kaila"에 대한 Google 검색 결과에는 이전 작업을 수행한 지 약 2주 후, 최대 한 시간 전에도 teemuleisti.com 사이트에 대한 링크가 표시되었습니다. 그러나 이 문제는 해결된 것으로 보입니다(편집 시 추가됨:아니요, 그렇지 않습니다.) 이 질문을 작성하는 동안 아마도 서버 nginx.conf파일에 다음 리디렉션을 추가했기 때문일 것입니다.

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

다음과 같은 검색결과를 리디렉션하려면http://teemuleisti.com/press(실제로 다음과 같은 콘텐츠의 일부를 보여주었습니다.http://ilarikaila.com/press) teemuleisti.com의 유일한 페이지로 이동하여 이제 방문자에게 Google 색인 생성 문제를 알리고 올바른 사이트에 대한 링크를 제공합니다.

이것은 해당 문제에 대해 Google-bot을 바로 설정한 것 같습니다. 몇 주 동안 teemuleisti.com에 하위 페이지가 없었기 때문에 어떤 차이가 났는지 알 수는 없지만 에 대한 혼란은 무엇입니까 robots.txt?

편집 시 추가됨:Google에서 "ilari kaila 작곡가"를 검색하면 검색 결과의 두 번째 페이지가 여전히 teemuleisti.com을 가리키므로 이 문제도 아직 해결되지 않았습니다.

답변1

Allowrobots.txt 와 같은 내용이 없으므로 귀하는 robots.txt유효하지 않습니다. 이는 예상 Agent과 설명 만 제공하므로 봇을 혼란스럽게 만듭니다 Disallow. 모든 컨텍스트를 색인화하려면 robots.txt를 제거하거나 대신 비워두어야 합니다.

더 많은 정보:http://www.robotstxt.org/robotstxt.html

관련 정보