웹 브라우저와 웹 스크래퍼 간의 초당 요청 수

웹 브라우저와 웹 스크래퍼 간의 초당 요청 수

내 이해: 웹 브라우저가 페이지 보기를 요청하면 서버는 HTML로 응답합니다. 그런 다음 웹 브라우저는 해당 HTML 코드를 렌더링하고 HTML에서 볼 수 있는 각 내장 개체(예: 이미지)에 대한 요청을 1초 이내에 서버에 보냅니다(제공 또는 수신). 그러나 Web Scrapper를 사용하여 HTML만 가져오고 HTML을 전혀 렌더링하지 않도록 서버에 요청합니다.

웹 스크래핑에 대한 올바른 에티켓은 서버에 과부하가 걸리지 않도록 요청을 초당 최대 1회로 제한해야 한다는 것입니다.

그렇다면 웹 브라우저가 각 내장 개체에 대한 요청(1초에 여러 요청)을 보낼 때 문제가 되지 않는 이유는 무엇입니까? 그러나 Web Scrapper에서는 서로 다른 페이지의 HTML 소스에 대해서만 초당 여러 요청을 보내는 것입니까?

답변1

웹 스크래퍼(스크래퍼 아님)가 지연을 사용하는 이유는 다음과 같습니다.

  • 웹을 스크래핑하고 있다는 사실을 숨기고 스크레이핑하려는 사이트에서 차단합니다(페이지 간 약간의 지연을 사용하여 인터넷을 서핑하는 인간이 운영하는 웹 브라우저처럼 보입니다).
  • 웹 사이트 소유자에 대한 예의(매우 짧은 시간에 많은 데이터를 요청하면 서버에 과부하가 걸리고 사이트의 다른 사용자에게 사이트가 응답하지 않는 것처럼 보일 수 있음)

브라우저(또는 웹 스크래퍼)가 페이지를 요청할 때 동일한 페이지에서 개체를 요청하는 사이에 1초도 기다릴 필요가 없습니다. 즉시 요청할 수 있습니다. 그러면 사용자 경험이 향상됩니다(페이지 로드 속도가 빨라짐).

'일반' 사용자가 하지 않는 일은 매우 짧은 시간 내에 다른 페이지를 요청하는 것입니다. 사용자는 페이지를 보고 다음 페이지로 이동하기 위해 링크를 클릭합니다.
따라서 사용자가 사이트를 탐색할 때 동일한 웹사이트에서 다른 페이지를 요청하는 사이에 지연이 발생합니다. 귀하의 질문에서 언급한 1초 지연일 가능성이 높습니다.

분명히 사이트를 신속하게 스크레이핑하기 위해 웹 스크레이퍼는 가능한 한 가장 짧은 지연을 사용하기를 원할 것입니다. 그들은 프로세스 속도를 높이기 위해 다양한 방법을 사용합니다(예: 여러 사이트를 병렬로 스크레이핑하여 요청이 여러 다른 사용자로부터 온 것처럼 보이게 만듭니다).
웹 스크레이퍼의 경우 지연 이유와 작업 완료 필요성 사이에는 항상 상충 관계가 있습니다.

자세한 내용은 항목을 참조하세요.위키피디아

관련 정보