robots.txt 檔案對某些使用者代理程式有更多限制性規則

robots.txt 檔案對某些使用者代理程式有更多限制性規則

我對 robots.txt 的精確語法有點模糊,但我想實現的是:

  • 告訴所有用戶代理不要抓取某些頁面
  • 告訴某些用戶代理不要抓取任何內容

(基本上,一些具有大量資料的頁面永遠不應該被抓取;而一些貪婪但無用的搜尋引擎,例如Cuil,永遠不應該抓取任何東西)

如果我做這樣的事情:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

..它是否會按預期流動,所有用戶代理都匹配第一條規則並跳過 page1、page2 和 page3;並兩次匹配第二條規則並跳過所有內容?

答案1

看來您的理解比您意識到的要好。 :)

答案2

嗯,取決於爬蟲以及它是否只在第一次匹配的基礎上進行。 IE doubleler 可能會先看到通配符條目並且不會進一步檢查,因此不會看到 Disallow: /

相關內容