Windows Search 색인의 예상 크기

Windows Search 색인의 예상 크기

Windows Search로 꽤 많은 양의 데이터를 색인화해야 해서 색인 크기를 추정하고 싶었습니다. 나는 데이터의 하위 집합(약 60GB, 각각 약 4-5KB의 텍스트 데이터 13e6페이지)을 색인화했습니다.

인덱스가 약 78GB까지 커져서 이제 데이터 자체보다 더 많은 공간을 차지하게 되었습니다. 이 결과는 내가 읽은 내용과 모순됩니다.여기:

인덱스의 평균 크기는 인덱싱되는 모든 콘텐츠 크기의 약 10%입니다.

이것이 예상되는 인덱스 크기입니까? 그것을 줄이기 위해 무엇을 할 수 있습니까?

답변1

평균 인덱스 크기는 귀하의 인덱스 크기를 나타내지 않습니다. 이는 아마도 모든 파일이 인덱싱되는 것 외에도(파일이 모두 작기 때문에 이미 크기 비율만큼 커질 것임) 텍스트 파일의 내용도 인덱싱되어 인덱스 크기가 더욱 커지기 때문일 것입니다.

답변2

10% 규칙은 다음과 같은 다양한 가정을 기반으로 합니다.

  1. 말뭉치에는 인간 언어로 된 산문이 포함된 파일이 포함되어 있습니다.
  2. 평균적으로 파일은 메타데이터에 비해 상당히 큽니다.
  3. 말뭉치에 코드 파일(.cpp, .cs 등)이 포함되어 있지 않습니다.

세 번째는 단어가 자주 반복된다는 가정 하에 인덱스가 디스크에서 압축되기 때문입니다. 이는 대부분의 텍스트에 해당됩니다(인덱스에 'the'가 몇 번 나타나는지 확인하세요). 그러나 코드의 경우 변수 이름에 고유한 '단어'가 너무 많아서 이러한 가정이 깨집니다.

귀하의 경우에는 문제가 2번, 즉 많은 수의 작은 파일인 것으로 의심됩니다. 인덱스에 저장해야 하는 각 파일에는 고정된 양의 메타데이터 오버헤드가 있습니다. 예를 들어, 인덱스는 콘텐츠 상단에 있는 모든 파일에 대한 전체 경로, 수정 날짜, 생성 날짜 등을 저장해야 합니다. 파일당 최대 약 3K가 추가되며, 평균 파일 크기가 4~5K인 경우 문제가 될 가능성이 가장 높습니다.

검색이 중요하고 파일을 결합할 수 없는 경우에는 많은 파일 형식의 콘텐츠 색인 생성을 끄는 것이 좋습니다. 검색 가능한 파일의 메타데이터를 유지하면서 크기를 다소 줄여야 합니다.

색인 옵션 제어판 페이지를 사용하여 내용만 색인화

답변3

Windows 검색 서비스를 비활성화했습니다. 나는 대체 검색 응용 프로그램을 사용합니다. 매우 빠른 파일 검색을 위한 900KB 크기의 "Everything"과 파일 내용 검색을 위한 "FileSeek Pro".

관련 정보