특정 사용자 에이전트에 대해 더 제한적인 규칙이 포함된 robots.txt 파일

특정 사용자 에이전트에 대해 더 제한적인 규칙이 포함된 robots.txt 파일

저는 robots.txt의 정확한 구문에 대해 약간 모호하지만 제가 달성하려는 것은 다음과 같습니다.

  • 모든 사용자 에이전트에게 특정 페이지를 크롤링하지 말라고 지시
  • 특정 사용자 에이전트에게 아무것도 크롤링하지 말라고 지시

(기본적으로 엄청난 양의 데이터가 포함된 일부 페이지는 절대 크롤링되어서는 안 되며, 일부 탐욕스럽기는 하지만 쓸모없는 검색 엔진(예: Cuil)은 아무것도 크롤링해서는 안 됩니다.)

내가 다음과 같이 하면:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

..모든 사용자 에이전트가 첫 번째 규칙과 일치하고 page1, page2 및 page3을 건너뛰면서 예상대로 진행됩니까? 두 번째 규칙과 일치하고 모든 것을 건너 뛰는 두 번 더?

답변1

당신이 생각하는 것보다 더 잘 이해하고 있는 것처럼 보일 것입니다. :)

답변2

흠, 크롤러에 따라 다르며 첫 번째 일치 기준으로 진행되는지 여부도 다릅니다. IEtwosler는 와일드카드 항목을 먼저 보고 더 이상 확인하지 않을 수 있으므로 Disallow: /가 표시되지 않습니다.

관련 정보