Estimar o tamanho do índice do Windows Search

Estimar o tamanho do índice do Windows Search

Tenho que indexar uma grande quantidade de dados com o Windows Search, então queria ter uma estimativa do tamanho do índice. Indexei um subconjunto de dados (cerca de 60 GB; 13e6 páginas de dados de texto, cada uma com cerca de 4 a 5 KB).

O índice cresceu para cerca de 78 GB, por isso agora ocupa mais espaço do que os próprios dados. Esses resultados contradizem o que liaqui:

O tamanho médio de um índice é cerca de 10% do tamanho de todo o conteúdo que está sendo indexado.

Este é o tamanho esperado do índice? O que pode ser feito para reduzi-lo?

Responder1

O tamanho médio do índice não é indicativo de qual seria o seu. Provavelmente, isso ocorre porque, além de todos os seus arquivos serem indexados (e isso já seria grande como uma porcentagem de tamanho, já que seus arquivos são todos pequenos), o conteúdo dos arquivos de texto também é indexado, aumentando ainda mais o tamanho do índice.

Responder2

A regra dos 10% depende de uma série de suposições:

  1. O corpus contém arquivos com prosa de linguagem humana
  2. Os arquivos, em média, são razoavelmente grandes em comparação com seus metadados
  3. O corpus não contém arquivos de código (.cpp, .cs, ect)

O número 3 ocorre porque o índice é compactado no disco, presumindo que as palavras serão repetidas com frequência. Isso é verdade para a maioria dos textos (verifique quantas vezes 'o' aparece no seu índice), mas para o código há tantas 'palavras' exclusivas de nomes de variáveis ​​que isso quebra essa suposição.

No seu caso, porém, eu suspeito que o problema seja o número 2, muitos arquivos pequenos. Há uma quantidade fixa de sobrecarga de metadados que acompanha cada arquivo que precisa ser armazenado no índice. Por exemplo, o índice deve armazenar o caminho completo, data de modificação, data de criação, etc. para cada arquivo acima do conteúdo. Isso soma cerca de 3K por arquivo e, se o tamanho médio do arquivo for de 4 a 5K, esse provavelmente é o problema.

Se a pesquisa for importante e você não conseguir combinar o arquivo, recomendo desligar a indexação do conteúdo dos tipos de arquivo que você possui em grande quantidade. Deve reduzir um pouco o tamanho e ainda manter os metadados do arquivo pesquisáveis.

Indexando apenas o conteúdo usando a página do painel de controle Opções de indexação

Responder3

Desativei meu serviço de pesquisa para Windows. Eu uso aplicativos de pesquisa alternativos. "Tudo" com tamanho de apenas 900 KB para pesquisa de arquivos extra rápida e "FileSeek Pro" para pesquisa no conteúdo dos arquivos.

informação relacionada