我有兩個網域指向同一個虛擬伺服器。其中之一,http://ilarikaila.com,是我為朋友製作的一個工作手冊網站。我用的是另外一個http://teemuleisti.com,在公開網站之前對其進行測試 - 回想起來,這可能是一個壞主意。
很長一段時間以來,Google-bot 對於搜尋「ilari kaila」有兩種困惑,但當我寫這篇文章時,第二個問題似乎已經消失了(編輯時新增:不,還沒有)。
混亂第一
“ilari kaila”的 Google 搜尋結果確實包含 ilarikaila.com,但僅在結果的第三頁上,並且結果包含文字“此結果的描述不可用,因為該網站的robots.txt – 了解更多信息。” 。
文件的內容robots.txt
很簡單
User-agent: *
Allow: /
這當然不應阻止任何機器人列出該網站的內容。事實上,當搜尋術語“ilari kaila”被輸入到必應網站,該網站作為第一個搜尋結果出現(並且仍然如此),並且顯示了正確的片段。
幾天前,我robots.txt
完全刪除了(或者更確切地說,將其重命名not_robots.txt
),但谷歌仍然顯示相同的結果,參考robots.txt。 (這可能是該網站只出現在搜尋結果第三頁的原因。)
混亂之二
最初,對 teemuleisti.com 的請求顯示與 ilarikaila.com 相同的頁面,因為我沒有在文件server
中為前者編寫單獨的區塊nginx.conf
。幾週前我就這樣做了,並為以前的網站編寫了一個非常簡單的 HTML 頁面。
儘管如此,「ilari kaila」的 Google 搜尋結果顯示了指向 teemuleisti.com 網站的鏈接,甚至在我執行上述操作大約兩週後,也就是一小時前。不過這個問題似乎已經解決了(編輯時新增:不,它沒有)當我寫這個問題時,也許是因為我剛剛將以下重定向添加到伺服器的nginx.conf
檔案中:
server {
listen 80;
server_name teemuleisti.com www.teemuleisti.com;
...
location = /index.html {
break;
}
location ~* ^/(.+)$ {
rewrite ^ http://teemuleisti.com redirect;
}
}
重定向搜尋結果,例如http://teemuleisti.com/press(其中顯示了實際上位於http://ilarikaila.com/press)到 teemuleisti.com 的唯一頁面,該頁面現在通知訪客 Google 索引存在問題,並且有指向正確網站的連結。
這似乎讓 Google-bot 正確地解決了這個問題——儘管我看不出它有什麼區別,因為 teemuleisti.com 下已經沒有子頁面好幾週了——但是有什麼困惑呢robots.txt
?
編輯時新增:如果我谷歌搜尋“ilari kailacomposer”,搜尋結果的第二頁仍然指向teemuleisti.com,所以這個問題也還沒有解決。
答案1
Allow
robots.txt中沒有這樣的東西,因此你的robots.txt
無效。這會讓機器人感到困惑,因為它只期望Agent
和Disallow
描述。如果您希望對所有上下文建立索引,則應該刪除 robots.txt 或將其清空。