Google-bot 在完全正常的 robots.txt 上運行，然後在不存在的 robots.txt 上運行

2024-6-24 • tag-icon

Google-bot 在完全正常的 robots.txt 上運行，然後在不存在的 robots.txt 上運行

我有兩個網域指向同一個虛擬伺服器。其中之一，http://ilarikaila.com，是我為朋友製作的一個工作手冊網站。我用的是另外一個http://teemuleisti.com，在公開網站之前對其進行測試 - 回想起來，這可能是一個壞主意。

很長一段時間以來，Google-bot 對於搜尋「ilari kaila」有兩種困惑，但當我寫這篇文章時，第二個問題似乎已經消失了（編輯時新增：不，還沒有）。

混亂第一

“ilari kaila”的 Google 搜尋結果確實包含 ilarikaila.com，但僅在結果的第三頁上，並且結果包含文字“此結果的描述不可用，因為該網站的robots.txt – 了解更多信息。” 。

文件的內容robots.txt很簡單

User-agent: *
Allow: /

這當然不應阻止任何機器人列出該網站的內容。事實上，當搜尋術語“ilari kaila”被輸入到必應網站，該網站作為第一個搜尋結果出現（並且仍然如此），並且顯示了正確的片段。

幾天前，我robots.txt完全刪除了（或者更確切地說，將其重命名not_robots.txt），但谷歌仍然顯示相同的結果，參考robots.txt。（這可能是該網站只出現在搜尋結果第三頁的原因。）

混亂之二

最初，對 teemuleisti.com 的請求顯示與 ilarikaila.com 相同的頁面，因為我沒有在文件server中為前者編寫單獨的區塊nginx.conf。幾週前我就這樣做了，並為以前的網站編寫了一個非常簡單的 HTML 頁面。

儘管如此，「ilari kaila」的 Google 搜尋結果顯示了指向 teemuleisti.com 網站的鏈接，甚至在我執行上述操作大約兩週後，也就是一小時前。不過這個問題似乎已經解決了（編輯時新增：不，它沒有）當我寫這個問題時，也許是因為我剛剛將以下重定向添加到伺服器的nginx.conf檔案中：

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

重定向搜尋結果，例如http://teemuleisti.com/press（其中顯示了實際上位於http://ilarikaila.com/press）到 teemuleisti.com 的唯一頁面，該頁面現在通知訪客 Google 索引存在問題，並且有指向正確網站的連結。

這似乎讓 Google-bot 正確地解決了這個問題——儘管我看不出它有什麼區別，因為 teemuleisti.com 下已經沒有子頁面好幾週了——但是有什麼困惑呢robots.txt？

編輯時新增：如果我谷歌搜尋“ilari kailacomposer”，搜尋結果的第二頁仍然指向teemuleisti.com，所以這個問題也還沒有解決。

答案1

Allowrobots.txt中沒有這樣的東西，因此你的robots.txt無效。這會讓機器人感到困惑，因為它只期望Agent和Disallow描述。如果您希望對所有上下文建立索引，則應該刪除 robots.txt 或將其清空。

答案1

相關內容