Tamaño estimado del índice de búsqueda de Windows

Tamaño estimado del índice de búsqueda de Windows

Tengo que indexar una cantidad bastante grande de datos con la Búsqueda de Windows, por lo que quería tener una estimación del tamaño del índice. He indexado un subconjunto de datos (alrededor de 60 GB; 13 a 6 páginas de datos de texto, cada una de aproximadamente 4 a 5 KB).

El índice ha crecido hasta aproximadamente 78 GB, por lo que ahora ocupa más espacio que los datos en sí. Estos resultados contradicen lo que he leído.aquí:

El tamaño promedio de un índice es aproximadamente el 10% del tamaño de todo el contenido que se indexa.

¿Es este el tamaño esperado del índice? ¿Qué se puede hacer para reducirlo?

Respuesta1

El tamaño promedio del índice no es indicativo de cuál sería el suyo. Probablemente esto se deba a que, además de que todos sus archivos se indexen (y eso ya sería grande como porcentaje de tamaño, ya que todos sus archivos son pequeños), el contenido de los archivos de texto también se indexa, lo que aumenta aún más el tamaño del índice.

Respuesta2

La regla del 10% se basa en una serie de supuestos:

  1. El corpus contiene archivos con prosa de un lenguaje humano.
  2. Los archivos, en promedio, son razonablemente grandes en comparación con sus metadatos.
  3. El corpus no contiene archivos de código (.cpp, .cs, ect)

El número 3 se debe a que el índice está comprimido en el disco, suponiendo que las palabras se repetirán con frecuencia. Esto es cierto para la mayoría del texto (verifique cuántas veces aparece 'el' en su índice), pero para el código hay tantas 'palabras' únicas de nombres de variables que rompe esta suposición.

Sin embargo, en su caso, sospecho que el problema es el número 2, una gran cantidad de archivos pequeños. Hay una cantidad fija de sobrecarga de metadatos que viene con cada archivo que debe almacenarse en el índice. Por ejemplo, el índice debe almacenar la ruta completa, la fecha de modificación, la fecha de creación, etc. de cada archivo además del contenido. Suma aproximadamente 3K por archivo, y si el tamaño promedio del archivo es de 4-5K, lo más probable es que ese sea el problema.

Si la búsqueda es importante y no puede combinar el archivo, le recomiendo desactivar la indexación del contenido de aquellos tipos de archivos que tenga muchos. Debería reducir un poco el tamaño sin dejar de poder buscar los metadatos del archivo.

Indexar solo los contenidos usando la página del panel de control Opciones de indexación

Respuesta3

Deshabilité mi servicio de búsqueda para Windows. Utilizo aplicaciones de búsqueda alternativas. "Todo" con un tamaño de sólo 900 KB para una búsqueda de archivos extra rápida y "FileSeek Pro" para buscar a través del contenido de los archivos.

información relacionada