誰が私のウェブサイトをスクレイピングしているかを特定するにはどうすればいいですか?

Question

信頼できるボット/ウェブスクレイパーは、User-Agent ヘッダーで自身を識別します (さらに、その動作を指示したい場合は robots.txt を使用します)。これにより、簡単に識別できるようになります。

悪意のあるボット (robots.txt を要求せず、それを尊重しない) は、User-agent ヘッダーで自身を識別することができるため、識別でき、サーバー側のポリシーを作成して適用し、その動作を制御することができます。実際の Web ブラウザーと同じ User-Agent 文字列を使用する場合、それを使用してボットを識別することはできません。その場合、ボットからのリクエストと実際のユーザーからのリクエストを区別するのは非常に困難です。

どのリクエストがボットからのものかを判断すると、リクエストの送信元 IP アドレスもログに含まれるようになります。

リクエストがボットからのものであることをすぐに識別できない場合は、通常、Web コンテンツを公開し、それを見つけてアクセスできるようにしたいということを覚えておいてください。サーバーがボットからのリクエストを処理できない場合は、同時にかなりの数の実際の訪問者を処理することもできないため、より大きな問題が発生します。

Answer 1

信頼できるボット/ウェブスクレイパーは、User-Agent ヘッダーで自身を識別します (さらに、その動作を指示したい場合は robots.txt を使用します)。これにより、簡単に識別できるようになります。

悪意のあるボット (robots.txt を要求せず、それを尊重しない) は、User-agent ヘッダーで自身を識別することができるため、識別でき、サーバー側のポリシーを作成して適用し、その動作を制御することができます。実際の Web ブラウザーと同じ User-Agent 文字列を使用する場合、それを使用してボットを識別することはできません。その場合、ボットからのリクエストと実際のユーザーからのリクエストを区別するのは非常に困難です。

どのリクエストがボットからのものかを判断すると、リクエストの送信元 IP アドレスもログに含まれるようになります。

リクエストがボットからのものであることをすぐに識別できない場合は、通常、Web コンテンツを公開し、それを見つけてアクセスできるようにしたいということを覚えておいてください。サーバーがボットからのリクエストを処理できない場合は、同時にかなりの数の実際の訪問者を処理することもできないため、より大きな問題が発生します。

誰が私のウェブサイトをスクレイピングしているかを特定するにはどうすればいいですか?

答え1

関連情報