Sehr viele Dateien auf S3 hochladen

Sehr viele Dateien auf S3 hochladen

Ich habe etwa 1 Million Bilder (in Verzeichnissen organisiert), die ich in S3 importieren muss. Ich habe angefangen, s3sync.rb zu verwenden, aber da es für die Synchronisierung entwickelt wurde, erstellt es Unmengen zusätzlicher Dateien, um den Überblick zu behalten. Ich brauche oder will das nicht – ich muss es nur einmal hochladen.

Als nächstes habe ich s3cmd (die Python-Version) ausprobiert, das eine Option --recursive für einfaches Put hat. Das Problem ist, dass es versucht, alle Upload-Dateien im Voraus zu verarbeiten (zumindest sieht es im Debug-Modus so aus), was bei der Anzahl der Dateien, die ich habe, nicht funktioniert.

Ich überlege, etwas wie Bucket Explorer oder S3fox auszuprobieren, aber ich habe Angst, viel Zeit zu verschwenden und nur die Hälfte zu erreichen.

Irgendwelche Empfehlungen, bitte?

Bearbeiten: Ich kenne einige der Optionen zum Mounten von S3, habe aber keine guten Erfahrungen mit S3FS gemacht. Würde JungleDisk mit einer großen Anzahl von Dateien gut funktionieren? Außerdem neigen diese Programme dazu, zusätzliche Dateien zu erstellen, die ich lieber nicht haben möchte.

Antwort1

Ich habe diese spezielle Speicheroption nicht ausprobiert, aberCyberduckunterstützt S3, hat eine Synchronisierungsoption und war für mich im Allgemeinen ziemlich robust.

Antwort2

Könnten SieSenden Sie ihnen ein tragbares Speichergerätmit Ihren Daten darauf?

Antwort3

s3sync.rbSie können es mit den Optionen versuchen --no-md5. Mit dieser Option wird nur das Änderungsdatum verglichen.

Ich habe Jungledisk verwendet, um eine ziemlich große Anzahl von Dateien (~20k) zu sichern, und es hat sehr gut funktioniert. Allerdings erstellt es eine separate Datenbank, um die hochgeladenen Dateien aufzubewahren (und führt eine Deduplizierung durch). Soweit ich gesehen habe, ist die Größe der Backup-Datenbank im Vergleich zur Größe aller gesicherten Dateien unbedeutend.

Unabhängig davon, wie Sie Dinge auf S3 hochladen, entstehen „zusätzliche Dateien“, da S3 keine Verzeichnisse speichert, sondern nur Schlüssel und Knoten unterstützt, sodass die Verzeichnisinformationen separat gespeichert werden müssen.

verwandte Informationen