我對 robots.txt 的精確語法有點模糊,但我想實現的是:
- 告訴所有用戶代理不要抓取某些頁面
- 告訴某些用戶代理不要抓取任何內容
(基本上,一些具有大量資料的頁面永遠不應該被抓取;而一些貪婪但無用的搜尋引擎,例如Cuil,永遠不應該抓取任何東西)
如果我做這樣的事情:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
..它是否會按預期流動,所有用戶代理都匹配第一條規則並跳過 page1、page2 和 page3;並兩次匹配第二條規則並跳過所有內容?
答案1
看來您的理解比您意識到的要好。 :)
答案2
嗯,取決於爬蟲以及它是否只在第一次匹配的基礎上進行。 IE doubleler 可能會先看到通配符條目並且不會進一步檢查,因此不會看到 Disallow: /