내 웹사이트를 스크랩하는 사람이 누구인지 어떻게 식별할 수 있나요?

Question

명예로운 봇/웹 스크래퍼는 User-Agent 헤더(그리고 동작을 지시하려는 경우 robots.txt를 존중함)로 자신을 식별하므로 쉽게 식별할 수 있습니다.

악성 봇(robots.txt를 요청하거나 존중하지 않음)은 여전히 User-agent 헤더로 자신을 식별할 수 있으므로 이를 식별할 수 있으며 서버 측 정책을 생성하고 시행하여 동작을 제어할 수 있습니다. 실제 웹 브라우저와 동일한 사용자 에이전트 문자열을 사용하는 경우 이를 식별하는 데 사용할 수 없습니다. 그러면 봇의 요청과 실제 사용자의 요청을 구별하기가 상당히 어려울 수 있습니다.

어떤 요청이 봇에서 오는지 확인하면 로그에는 요청 소스인 IP 주소도 포함됩니다.

요청이 봇에서 오는 요청인지 쉽게 식별할 수 없는 경우 일반적으로 웹 콘텐츠를 공개로 설정하고 해당 콘텐츠를 찾고 액세스할 수 있다는 점을 명심하세요. 서버가 봇에서 오는 요청을 처리할 수 없다면 합당한 수의 동시 실제 방문자도 처리할 수 없기 때문에 더 큰 문제가 발생합니다.

Answer 1

명예로운 봇/웹 스크래퍼는 User-Agent 헤더(그리고 동작을 지시하려는 경우 robots.txt를 존중함)로 자신을 식별하므로 쉽게 식별할 수 있습니다.

악성 봇(robots.txt를 요청하거나 존중하지 않음)은 여전히 User-agent 헤더로 자신을 식별할 수 있으므로 이를 식별할 수 있으며 서버 측 정책을 생성하고 시행하여 동작을 제어할 수 있습니다. 실제 웹 브라우저와 동일한 사용자 에이전트 문자열을 사용하는 경우 이를 식별하는 데 사용할 수 없습니다. 그러면 봇의 요청과 실제 사용자의 요청을 구별하기가 상당히 어려울 수 있습니다.

어떤 요청이 봇에서 오는지 확인하면 로그에는 요청 소스인 IP 주소도 포함됩니다.

요청이 봇에서 오는 요청인지 쉽게 식별할 수 없는 경우 일반적으로 웹 콘텐츠를 공개로 설정하고 해당 콘텐츠를 찾고 액세스할 수 있다는 점을 명심하세요. 서버가 봇에서 오는 요청을 처리할 수 없다면 합당한 수의 동시 실제 방문자도 처리할 수 없기 때문에 더 큰 문제가 발생합니다.

내 웹사이트를 스크랩하는 사람이 누구인지 어떻게 식별할 수 있나요?

답변1

관련 정보