
Ich muss mit Windows Search eine ziemlich große Datenmenge indizieren, daher wollte ich eine Schätzung der Indexgröße haben. Ich habe eine Teilmenge der Daten indiziert (ca. 60 GB; 13e6 Seiten Textdaten, jede ca. 4-5 KB).
Der Index ist auf etwa 78 GB angewachsen und nimmt nun mehr Platz ein als die Daten selbst. Diese Ergebnisse widersprechen dem, was ich gelesen habeHier:
Die durchschnittliche Größe eines Indexes beträgt etwa 10 % der Größe des gesamten zu indizierenden Inhalts.
Ist dies die erwartete Größe des Indexes? Was kann getan werden, um ihn zu reduzieren?
Antwort1
Die durchschnittliche Indexgröße ist kein Indikator für Ihre Indexgröße. Dies liegt wahrscheinlich daran, dass zusätzlich zur Indexierung aller Ihrer Dateien (und das wäre als Prozentsatz bereits groß, da Ihre Dateien alle klein sind) auch der Inhalt von Textdateien indexiert wird, was die Indexgröße weiter erhöht.
Antwort2
Die 10 %-Regel basiert auf einer Reihe von Annahmen:
- Das Korpus enthält Dateien mit Prosa aus einer menschlichen Sprache
- Die Dateien sind im Durchschnitt relativ groß im Vergleich zu ihren Metadaten
- Das Korpus enthält keine Codedateien (.cpp, .cs usw.).
Nummer 3 liegt daran, dass der Index auf der Festplatte komprimiert wird, da angenommen wird, dass Wörter häufig wiederholt werden. Dies trifft auf die meisten Texte zu (prüfen Sie, wie oft „the“ in Ihrem Index vorkommt), aber bei Code gibt es so viele eindeutige „Wörter“ aus Variablennamen, dass diese Annahme nicht zutrifft.
In Ihrem Fall vermute ich jedoch, dass das Problem Nummer 2 ist, nämlich eine große Anzahl kleiner Dateien. Es gibt einen festen Metadaten-Overhead, der mit jeder Datei einhergeht, die im Index gespeichert werden muss. Beispielsweise muss der Index für jede Datei zusätzlich zum Inhalt den vollständigen Pfad, das Änderungsdatum, das Erstellungsdatum usw. speichern. Das summiert sich auf etwa 3 KB pro Datei, und wenn die durchschnittliche Dateigröße 4-5 KB beträgt, ist das höchstwahrscheinlich das Problem.
Wenn die Suche wichtig ist und Sie die Datei nicht kombinieren können, empfehle ich, die Indizierung des Inhalts der Dateitypen zu deaktivieren, von denen Sie viele haben. Dadurch sollte die Größe etwas reduziert werden, während die Metadaten der Datei weiterhin durchsuchbar bleiben.
Antwort3
Ich habe meinen Suchdienst für Windows deaktiviert. Ich verwende alternative Suchanwendungen. „Everything“ mit nur 900 KB Größe für eine besonders schnelle Dateisuche und „FileSeek Pro“ für die Suche im Inhalt von Dateien.