Google이 위키피디아 기록 섹션에서 검색하지 않는 이유는 무엇입니까?

Question

웹사이트 엔진은 이러한 페이지가 색인화되지 않도록 특별히 요청합니다. 기록 페이지에는 검색 엔진에서 인식하는 헤더 태그가 있습니다.

<meta name="robots" content="noindex,nofollow"/>

( noindex페이지의 직접적인 콘텐츠를 제외하고 nofollow검색 크롤러에게 추가 링크를 무시하도록 지시합니다.~에서이 페이지. 후자의 속성은 개별 <a> 링크에 첨부될 수도 있습니다.)

한 가지 가능한 이유는 검색 엔진이 "현재" 페이지와 "과거" 페이지를 쉽게 구별하지 못하여 제거할 수 없는 오래된 데이터로 인해 결과가 넘쳐날 수 있기 때문입니다.

또 다른 이유는 MediaWiki가 기록을 델타 압축 형식으로 저장하고 기록 항목이 오래될수록 압축을 푸는 데 더 많은 CPU가 필요하기 때문입니다. (AFAIK에는 무한대로 나선형이 되지 않도록 주기적인 "전체" 체크포인트가 있지만 그럼에도 불구하고 리소스 사용량은 0이 아닙니다.) 여기에 모든 단일 위키 페이지에 대해 수백 또는 수천 개의 개정을 곱하면 크롤러가 서버에 빨리 과부하가 걸립니다.

마지막으로, 기록 섹션 외에도 Wikipedia는 이 /robots.txt파일을 사용하여 특정 URL을 색인 생성에서 제외합니다. 예를 들어,robots.txt 파일"삭제 투표" 스레드, "사용자 이름 변경 요청" 페이지 등은 모두 제외됩니다.

Answer 1