特定のユーザーエージェントに対するより制限的なルールを定めた robots.txt ファイル

特定のユーザーエージェントに対するより制限的なルールを定めた robots.txt ファイル

robots.txt の正確な構文については少し曖昧ですが、私が実現しようとしているのは次のことです。

  • すべてのユーザーエージェントに特定のページをクロールしないように指示する
  • 特定のユーザーエージェントに何もクロールしないように指示する

(基本的に、膨大な量のデータを持つページはクロールすべきではありません。また、貪欲だが役に立たない検索エンジン (Cuil など) は、何もクロールすべきではありません)

次のようなことをすると:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

すべてのユーザー エージェントが最初のルールに一致してページ 1、ページ 2、ページ 3 をスキップし、twiceler が 2 番目のルールに一致してすべてをスキップして、期待どおりにフローしますか?

答え1

あなたは自分が思っている以上によく理解しているようです。:)

答え2

うーん、クローラーによって、最初の一致に基づいて進むかどうかが異なります。IE twiceler は最初にワイルドカードエントリを確認してそれ以上チェックしない可能性があるため、Disallow: / は表示されません。

関連情報