長期クラウドストレージ用の冗長アーカイブを作成するためのベストプラクティス

長期クラウドストレージ用の冗長アーカイブを作成するためのベストプラクティス

写真、ドキュメント、その他の重要なもののデジタル アーカイブを作成して、クラウド (おそらく Amazon Glacier) に保存したいと考えています。アーカイブごとに 1 年間、最大 10 GB までが理想的です。ストレージとネットワーク転送のエラーによって何も壊れないようにしたいので、確実なデータ回復オーバーヘッドを組み込む必要があります。

ここで推奨されるベストプラクティスやツールはありますか? 回復データを含む RAR ですか? アーカイブと一緒に各ファイルのチェックサムを保存する価値はありますか? 他に何か提案はありますか?

答え1

バックアップに追加のリカバリデータを含めたい場合は、パーアーカイブタイプのソリューションです。生成する冗長性/回復データの量と、それを分割する方法 (分割する場合) を指定します。この方法を使用する利点は、実際に選択したバックアップおよびストレージ方法に依存しないことです。zip、tar、Windows バックアップなど、ファイルを生成できるものを使用して、Parchive ツールにフィードし、追加の回復ファイルを生成できます。

Amazon Glacier と S3 の両方のサービスにはファイルチェックサムを生成する機能があるため、ファイルをアップロードしたら、ローカルとリモートのチェックサムを比較して、ファイルがエラーなく転送されたことを確認できます。

さらに、この件に関して Amazon は次のように述べています。

耐久性– Amazon Glacier は、アーカイブに対して平均年間 99.999999999% の耐久性を提供するように設計されています。このサービスでは、複数の施設と各施設内の複数のデバイスにデータを冗長的に保存します。耐久性を高めるために、Amazon Glacier はアーカイブのアップロード時に成功を返す前に、複数の施設にデータを同期的に保存します。面倒なデータ検証と手動修復を必要とする従来のシステムとは異なり、Glacier は定期的かつ体系的なデータ整合性チェックを実行し、自動的に自己修復するように構築されています。

つまり、あなたのファイルのいずれかがふぅ言い換えれば、1 年間に 1,000 億のファイルを Glacier に保存すると、そのうちの 1 つが失われることが予想されます。

さらに確実な保証が必要な場合は、データを複数の Glacier リージョンにアップロードするか、別の地理的リージョンにあるまったく異なるサービス プロバイダーにアップロードすることを検討してください。

答え2

通常、ストレージ メディアの信頼性を完全に信頼できない場合は、修復可能な独自の冗長性を導入する必要があります。

これを強引かつ手っ取り早く行う方法は、単にすべてを 2 回アップロードすることです。おそらく、そんなことはしたくないでしょう。

少し複雑ですが、ファイルを小さなブロックに分割し、次のようなツールを使用して「par2」ファイルを作成すると、クイックパー。 (チュートリアルはこちら) であれば、ファイルが失われても回復できると思います。これは通常、Usenet 経由で転送および「取得」されるバイナリ ファイルの信頼性を高めるために使用されます (Usenet は実際にはその目的のために設計されたものではありません) が、このレベルの冗長性が必要な場所であればどこでも使用できます。

答え3

古い PAR 形式に代わる形式があります:DVD災害、DARおよびpyFileFixity(これは私が開発したものです)。しかし、クラウド サービスには、もちろんデータ保存のための独自のシステムが必要です。クラウド サービスが提供するストレージ スペースでは、データ破損率が恐ろしく高くなるため、いずれにしても安全でなければなりません。

関連情報