誰が私のウェブサイトをスクレイピングしているかを特定するにはどうすればいいですか?

誰が私のウェブサイトをスクレイピングしているかを特定するにはどうすればいいですか?

AWS でホストされている電子商取引 Web サイトを持っています。

スクレイピング ボットを防止/ブロックするツールがあることは理解しています。しかし、誰が私の Web サイトをスクレイピングしているかを検出することは可能ですか? つまり、ボットからのリクエストを検出し、ボットの IP を見つけて、それを使用して私の Web サイトをスクレイピングしているサーバーを識別することはできますか?

答え1

信頼できるボット/ウェブスクレイパーは、User-Agent ヘッダーで自身を識別します (さらに、その動作を指示したい場合は robots.txt を使用します)。これにより、簡単に識別できるようになります。

悪意のあるボット (robots.txt を要求せず、それを尊重しない) は、User-agent ヘッダーで自身を識別することができるため、識別でき、サーバー側のポリシーを作成して適用し、その動作を制御することができます。実際の Web ブラウザーと同じ User-Agent 文字列を使用する場合、それを使用してボットを識別することはできません。その場合、ボットからのリクエストと実際のユーザーからのリクエストを区別するのは非常に困難です。

どのリクエストがボットからのものかを判断すると、リクエストの送信元 IP アドレスもログに含まれるようになります。

リクエストがボットからのものであることをすぐに識別できない場合は、通常、Web コンテンツを公開し、それを見つけてアクセスできるようにしたいということを覚えておいてください。サーバーがボットからのリクエストを処理できない場合は、同時にかなりの数の実際の訪問者を処理することもできないため、より大きな問題が発生します。

関連情報