Google 網路爬蟲找不到我的 WordPress 貼文

Google 網路爬蟲找不到我的 WordPress 貼文

我在自己的伺服器上有一個 WordPress 博客,它使用了在 url 中包含中文字元的永久鏈接,例如http://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/

幾個月前,我用英文描述更改了所有網址,例如http://techblog.zellux.czm.cn/2009/05/page-coloring/,並安裝了一個外掛程式來自動產生sitemap.xml並將其提交到Google網站管理員工具。

現在幾個月後我再次檢查Google網站管理員工具,在診斷->網路爬行中它說找不到41個網址,所有這些網址都像以前一樣包含漢字的unicode,並且在連結自專欄 他們都是不可用。至於 Sitemaps->Sitemap 詳細信息,它表示 115 個 URL 中只有 15 個被索引。

所以我的問題是如何讓 Google 停止嘗試抓取已棄用的 URL,而只抓取 sitemap.xml 中指定的 URL?

答案1

您可以使用 robots.txt 檔案來排除對指定頁面進行爬網。它看起來像這樣:

User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3

在任何文字編輯器中建立此文件並上傳到您的根目錄(或編輯現有的 robots.txt 檔案(如果存在))。

網站管理員工具還有一個產生 robots.txt 檔案的工具(工具 > 產生 robots.txt)

相關內容