S3 に取り込む必要がある画像が約 100 万枚あります (ディレクトリに整理されています)。s3sync.rb を使い始めましたが、同期用に構築されているため、物事を追跡するための余分なファイルが大量に作成されます。これは必要ありませんし、望んでいません。一度アップロードするだけで済みます。
次に、単純な put 用の --recursive オプションを持つ s3cmd (Python バージョン) を試しました。問題は、アップロードされたすべてのファイルを事前に処理しようとすることです (少なくともデバッグ モードではそのように見えます)。これは、私が持っているファイルの数では機能しません。
Bucket Explorer や s3fox のようなものを試してみようと思っていますが、多くの時間を無駄にして途中までしか進めないのではないかと心配です。
何かおすすめはありますか?
編集: s3 をマウントするためのオプションはいくつか知っていますが、s3fs で良い経験はありません。jungledisk は大量のファイルでもうまく機能しますか? また、これらのプログラムは、不要な余分なファイルを作成する傾向があります。
答え1
私はその特定のストレージオプションを試したことはありませんが、サイバーダックs3 をサポートし、同期オプションがあり、私にとっては全体的に非常に堅牢です。
答え2
出来ますかポータブルストレージデバイスを送るあなたのデータはそこにありますか?
答え3
s3sync.rb
オプションを指定して実行してみることもできます--no-md5
。そのオプションでは、変更日のみが比較されます。
私は Jungledisk を使用して、かなり大量のファイル (約 20k) をバックアップしましたが、パフォーマンスは非常に良好でした。ただし、アップロードされたファイルを保持するために別のデータベースを作成します (重複排除を実行します)。私が見た限りでは、バックアップ データベースのサイズは、バックアップされたすべてのファイルのサイズと比較するとごくわずかです。
S3 にどのような方法でアップロードしても、「余分なファイル」が存在します。これは、S3 はディレクトリを保存せず、キーとノードのみをサポートしているため、ディレクトリ情報を個別に保存する必要があるためです。