Google-bot 在完全正常的 robots.txt 上運行,然後在不存在的 robots.txt 上運行

Google-bot 在完全正常的 robots.txt 上運行,然後在不存在的 robots.txt 上運行

我有兩個網域指向同一個虛擬伺服器。其中之一,http://ilarikaila.com,是我為朋友製作的一個工作手冊網站。我用的是另外一個http://teemuleisti.com,在公開網站之前對其進行測試 - 回想起來,這可能是一個壞主意。

很長一段時間以來,Google-bot 對於搜尋「ilari kaila」有兩種困惑,但當我寫這篇文章時,第二個問題似乎已經消失了(編輯時新增:不,還沒有)。

混亂第一

“ilari kaila”的 Google 搜尋結果確實包含 ilarikaila.com,但僅在結果的第三頁上,並且結果包含文字“此結果的描述不可用,因為該網站的robots.txt – 了解更多信息。” 。

文件的內容robots.txt很簡單

User-agent: *
Allow: /

這當然不應阻止任何機器人列出該網站的內容。事實上,當搜尋術語“ilari kaila”被輸入到必應網站,該網站作為第一個搜尋結果出現(並且仍然如此),並且顯示了正確的片段。

幾天前,我robots.txt完全刪除了(或者更確切地說,將其重命名not_robots.txt),但谷歌仍然顯示相同的結果,參考robots.txt。 (這可能是該網站只出現在搜尋結果第三頁的原因。)

混亂之二

最初,對 teemuleisti.com 的請求顯示與 ilarikaila.com 相同的頁面,因為我沒有在文件server中為前者編寫單獨的區塊nginx.conf。幾週前我就這樣做了,並為以前的網站編寫了一個非常簡單的 HTML 頁面。

儘管如此,「ilari kaila」的 Google 搜尋結果顯示了指向 teemuleisti.com 網站的鏈接,甚至在我執行上述操作大約兩週後,也就是一小時前。不過這個問題似乎已經解決了(編輯時新增:不,它沒有)當我寫這個問題時,也許是因為我剛剛將以下重定向添加到伺服器的nginx.conf檔案中:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

重定向搜尋結果,例如http://teemuleisti.com/press(其中顯示了實際上位於http://ilarikaila.com/press)到 teemuleisti.com 的唯一頁面,該頁面現在通知訪客 Google 索引存在問題,並且有指向正確網站的連結。

這似乎讓 Google-bot 正確地解決了這個問題——儘管我看不出它有什麼區別,因為 teemuleisti.com 下已經沒有子頁面好幾週了——但是有什麼困惑呢robots.txt

編輯時新增:如果我谷歌搜尋“ilari kailacomposer”,搜尋結果的第二頁仍然指向teemuleisti.com,所以這個問題也還沒有解決。

答案1

Allowrobots.txt中沒有這樣的東西,因此你的robots.txt無效。這會讓機器人感到困惑,因為它只期望AgentDisallow描述。如果您希望對所有上下文建立索引,則應該刪除 robots.txt 或將其清空。

更多資訊:http://www.robotstxt.org/robotstxt.html

相關內容