Effektive Verarbeitung von über 2 Millionen Dateien

Question 1

Sie möchten wahrscheinlich nur XFS verwenden.

Es ist durchaus in der Lage, Ihren Anforderungen gerecht zu werden und erledigt die Arbeit.

Es gibt keinen Grund, dies mit weniger genutzten Dateisystemen zu verkomplizieren, was mit anderen Kompromissen verbunden sein kann.

Bitte beachten Sie:Welchen Einfluss hat die Anzahl der Unterverzeichnisse auf die Lese-/Schreibleistung des Laufwerks unter Linux? UndDie Auswirkungen eines hohen Verzeichnis-zu-Datei-Verhältnisses auf XFS

Wenn Sie etwas Esoterischeres möchten, könnten ZFS-Zvols mit einem darüber liegenden Dateisystem eine interessante Alternative darstellen (für Komprimierung, Integrität und Portabilität).

Siehe hier:Transparentes Komprimierungsdateisystem in Verbindung mit ext4

Answer

Sie möchten wahrscheinlich nur XFS verwenden.

Es ist durchaus in der Lage, Ihren Anforderungen gerecht zu werden und erledigt die Arbeit.

Es gibt keinen Grund, dies mit weniger genutzten Dateisystemen zu verkomplizieren, was mit anderen Kompromissen verbunden sein kann.

Bitte beachten Sie:Welchen Einfluss hat die Anzahl der Unterverzeichnisse auf die Lese-/Schreibleistung des Laufwerks unter Linux? UndDie Auswirkungen eines hohen Verzeichnis-zu-Datei-Verhältnisses auf XFS

Wenn Sie etwas Esoterischeres möchten, könnten ZFS-Zvols mit einem darüber liegenden Dateisystem eine interessante Alternative darstellen (für Komprimierung, Integrität und Portabilität).

Siehe hier:Transparentes Komprimierungsdateisystem in Verbindung mit ext4

Question 2

Angesichts der Anzahl der kleinen Dateien würde ich die Verwendung von SquashFS in Betracht ziehen. Insbesondere, wenn Sie über eine ausreichend leistungsstarke CPU verfügen (also keinen Pentium III oder 1-GHz-ARM).

Abhängig von der Art der gespeicherten Daten kann SquashFS die Größe und damit die E/A beim Lesen erheblich reduzieren. Der einzige Nachteil ist die CPU-Auslastung beim Lesen. Andererseits kann jede moderne CPU bei Geschwindigkeiten dekomprimieren, die die von Festplatten und wahrscheinlich sogar SSDs bei weitem übertreffen.

Ein weiterer Vorteil: Sie sparen Speicherplatz/Bandbreite und/oder Zeit für die Dekomprimierung nach der Übertragung.

Einige BenchmarksVergleichen Sie es mit ISO und anderen ähnlichen Mitteln. Wie bei jedem Benchmark sollten Sie es mit Vorsicht genießen und besser noch Ihren eigenen Benchmark fälschen. ;-)

Edit: Je nach Umständen (und ich wage hier nicht zu raten) mksquashfs -noDkönnte SquashFS ohne Komprimierung ( ) ext4 übertreffen, da der Code zum Lesen viel einfacher und für den Nur-Lese-Betrieb optimiert sein sollte. Aber das müssen Sie wirklich in Ihrem Anwendungsfall vergleichen. Ein weiterer Vorteil ist, dass das SquashFS-Image nur ein wenig größer ist als Ihre Daten. Mit Ext4 müssen Sie immer ein größeres Loop-Gerät erstellen. Der Nachteil ist natürlich, dass es ziemlich unbequem ist, wenn Sie die Daten ändern müssen. Das ist mit ext4 viel einfacher.

Answer

Angesichts der Anzahl der kleinen Dateien würde ich die Verwendung von SquashFS in Betracht ziehen. Insbesondere, wenn Sie über eine ausreichend leistungsstarke CPU verfügen (also keinen Pentium III oder 1-GHz-ARM).

Abhängig von der Art der gespeicherten Daten kann SquashFS die Größe und damit die E/A beim Lesen erheblich reduzieren. Der einzige Nachteil ist die CPU-Auslastung beim Lesen. Andererseits kann jede moderne CPU bei Geschwindigkeiten dekomprimieren, die die von Festplatten und wahrscheinlich sogar SSDs bei weitem übertreffen.

Ein weiterer Vorteil: Sie sparen Speicherplatz/Bandbreite und/oder Zeit für die Dekomprimierung nach der Übertragung.

Einige BenchmarksVergleichen Sie es mit ISO und anderen ähnlichen Mitteln. Wie bei jedem Benchmark sollten Sie es mit Vorsicht genießen und besser noch Ihren eigenen Benchmark fälschen. ;-)

Edit: Je nach Umständen (und ich wage hier nicht zu raten) mksquashfs -noDkönnte SquashFS ohne Komprimierung ( ) ext4 übertreffen, da der Code zum Lesen viel einfacher und für den Nur-Lese-Betrieb optimiert sein sollte. Aber das müssen Sie wirklich in Ihrem Anwendungsfall vergleichen. Ein weiterer Vorteil ist, dass das SquashFS-Image nur ein wenig größer ist als Ihre Daten. Mit Ext4 müssen Sie immer ein größeres Loop-Gerät erstellen. Der Nachteil ist natürlich, dass es ziemlich unbequem ist, wenn Sie die Daten ändern müssen. Das ist mit ext4 viel einfacher.

Question 3

Wenn die Datei schreibgeschützt ist, warum verwenden Sie dann keine ISO-Datei? Sie können genisoimageoder verwenden mkisofs.

Wenn Sie das Ganze komprimieren möchten, können Sie auch verwenden squashfs, ein anderes schreibgeschütztes Dateisystem mit sehr hoher Komprimierungsrate.

Answer

Wenn die Datei schreibgeschützt ist, warum verwenden Sie dann keine ISO-Datei? Sie können genisoimageoder verwenden mkisofs.

Wenn Sie das Ganze komprimieren möchten, können Sie auch verwenden squashfs, ein anderes schreibgeschütztes Dateisystem mit sehr hoher Komprimierungsrate.

Question 4

Ich bin nicht sicher, ob das Ihren Zweck erfüllt, aber haben Sie schon einmal daran gedacht, tarmehrere Dateien zu kombinieren? Das könnte den Druck und den Platzbedarf des Dateisystems verringern, und Ihre Datenbankanwendung kann Daten für eine bestimmte Datei mit einer der vielen tarverfügbaren Bibliotheken lesen.

Abhängig von Ihrem Zugriffsmuster kann dies sogar die Leistung steigern.

Answer

Ich bin nicht sicher, ob das Ihren Zweck erfüllt, aber haben Sie schon einmal daran gedacht, tarmehrere Dateien zu kombinieren? Das könnte den Druck und den Platzbedarf des Dateisystems verringern, und Ihre Datenbankanwendung kann Daten für eine bestimmte Datei mit einer der vielen tarverfügbaren Bibliotheken lesen.

Abhängig von Ihrem Zugriffsmuster kann dies sogar die Leistung steigern.

Effektive Verarbeitung von über 2 Millionen Dateien

Antwort1

Antwort2

Antwort3

Antwort4

verwandte Informationen