robots.txt の正確な構文については少し曖昧ですが、私が実現しようとしているのは次のことです。
- すべてのユーザーエージェントに特定のページをクロールしないように指示する
- 特定のユーザーエージェントに何もクロールしないように指示する
(基本的に、膨大な量のデータを持つページはクロールすべきではありません。また、貪欲だが役に立たない検索エンジン (Cuil など) は、何もクロールすべきではありません)
次のようなことをすると:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
すべてのユーザー エージェントが最初のルールに一致してページ 1、ページ 2、ページ 3 をスキップし、twiceler が 2 番目のルールに一致してすべてをスキップして、期待どおりにフローしますか?
答え1
あなたは自分が思っている以上によく理解しているようです。:)
答え2
うーん、クローラーによって、最初の一致に基づいて進むかどうかが異なります。IE twiceler は最初にワイルドカードエントリを確認してそれ以上チェックしない可能性があるため、Disallow: / は表示されません。