저는 robots.txt의 정확한 구문에 대해 약간 모호하지만 제가 달성하려는 것은 다음과 같습니다.
- 모든 사용자 에이전트에게 특정 페이지를 크롤링하지 말라고 지시
- 특정 사용자 에이전트에게 아무것도 크롤링하지 말라고 지시
(기본적으로 엄청난 양의 데이터가 포함된 일부 페이지는 절대 크롤링되어서는 안 되며, 일부 탐욕스럽기는 하지만 쓸모없는 검색 엔진(예: Cuil)은 아무것도 크롤링해서는 안 됩니다.)
내가 다음과 같이 하면:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
..모든 사용자 에이전트가 첫 번째 규칙과 일치하고 page1, page2 및 page3을 건너뛰면서 예상대로 진행됩니까? 두 번째 규칙과 일치하고 모든 것을 건너 뛰는 두 번 더?
답변1
당신이 생각하는 것보다 더 잘 이해하고 있는 것처럼 보일 것입니다. :)
답변2
흠, 크롤러에 따라 다르며 첫 번째 일치 기준으로 진행되는지 여부도 다릅니다. IEtwosler는 와일드카드 항목을 먼저 보고 더 이상 확인하지 않을 수 있으므로 Disallow: /가 표시되지 않습니다.