上傳大量文件到 S3

上傳大量文件到 S3

我有大約 100 萬張圖像(按目錄組織)需要進入 S3。我開始使用 s3sync.rb,但由於它是為同步而建立的,因此會創建大量額外檔案來追蹤內容。我不需要也不想要這個 - 只需上傳一次。

接下來我嘗試了 s3cmd (python 版本),它有一個簡單放置的 --recursive 選項。問題是它嘗試預先處理所有上傳文件(至少在調試模式下看起來是這樣),這對於我擁有的文件數量不起作用。

我正在考慮嘗試諸如 Bucket Explorer 或 s3fox 之類的東西,但我擔心浪費大量時間並且只能完成一半。

請問有什麼建議嗎?

編輯:我知道安裝 s3 的一些選項,但還沒有使用 s3fs 的良好經驗。 jungledisk 可以很好地處理大量文件嗎?此外,這些程式往往會創建我不想擁有的額外文件。

答案1

我還沒有嘗試過那個特定的存儲選項,但是網路鴨子支援 s3,有同步選項,對我來說整體來說相當強大。

答案2

您可以...嗎給他們發送便攜式儲存設備有你的數據嗎?

答案3

您可以嘗試s3sync.rb使用--no-md5選項運行。使用該選項時,僅比較修改日期。

我已經使用 Jungledisk 備份了大量文件(~20k),並且它的性能非常好。儘管它確實創建了一個單獨的資料庫來保存上傳的檔案(並執行重複資料刪除)。據我所知,與已備份的所有檔案的大小相比,備份資料庫的大小是微不足道的。

無論你如何將東西上傳到S3,都會有“額外檔案”,因為S3不儲存目錄,它只支援鍵和節點,所以目錄資訊必須單獨保存。

相關內容