AWS에서 호스팅되는 전자상거래 웹사이트가 있습니다.
스크래핑 봇을 방지/차단하는 도구가 있다는 것을 알고 있습니다. 하지만 누가 내 웹사이트를 스크랩하고 있는지 탐지할 수 있습니까? 즉, 봇에서 오는 요청을 감지한 다음 봇의 IP를 찾아 이를 사용하여 내 웹사이트를 스크래핑하는 서버를 식별할 수 있습니까?
답변1
명예로운 봇/웹 스크래퍼는 User-Agent 헤더(그리고 동작을 지시하려는 경우 robots.txt를 존중함)로 자신을 식별하므로 쉽게 식별할 수 있습니다.
악성 봇(robots.txt를 요청하거나 존중하지 않음)은 여전히 User-agent 헤더로 자신을 식별할 수 있으므로 이를 식별할 수 있으며 서버 측 정책을 생성하고 시행하여 동작을 제어할 수 있습니다. 실제 웹 브라우저와 동일한 사용자 에이전트 문자열을 사용하는 경우 이를 식별하는 데 사용할 수 없습니다. 그러면 봇의 요청과 실제 사용자의 요청을 구별하기가 상당히 어려울 수 있습니다.
어떤 요청이 봇에서 오는지 확인하면 로그에는 요청 소스인 IP 주소도 포함됩니다.
요청이 봇에서 오는 요청인지 쉽게 식별할 수 없는 경우 일반적으로 웹 콘텐츠를 공개로 설정하고 해당 콘텐츠를 찾고 액세스할 수 있다는 점을 명심하세요. 서버가 봇에서 오는 요청을 처리할 수 없다면 합당한 수의 동시 실제 방문자도 처리할 수 없기 때문에 더 큰 문제가 발생합니다.