為長期雲端儲存創建冗餘存檔的良好實踐

為長期雲端儲存創建冗餘存檔的良好實踐

我想創建照片、文件和其他重要內容的數位檔案以儲存在雲端(可能是 Amazon Glacier)。每個存檔最好為一年,每個存檔最多 10 GB。我想確保儲存和網路傳輸錯誤不會破壞任何東西,所以我想包括可靠的恢復資料開銷。

您這裡有推薦的最佳實踐和工具嗎? RAR 帶恢復資料?是否值得將每個文件校驗和與存檔一起儲存?還有其他建議嗎?

答案1

如果您想在備份中包含額外的恢復數據,您可以使用帕檔案型解決方案。您指定要產生的冗餘/恢復資料量以及如何(如果有的話)拆分它。使用此方法的好處是它與您選擇的實際備份和儲存方法無關。您可以使用 zip 或 tar 或 Windows 備份或任何其他生成檔案的工具,並透過 Parchive 工具提供它們以產生其他復原檔案。

請記住,Amazon Glacier 和 S3 服務都能夠產生檔案校驗和,因此上傳檔案後,您可以比較本機和遠端校驗和,以確保檔案傳輸沒有錯誤。

此外,這是亞馬遜關於這個主題的說法:

耐用的– Amazon Glacier 旨在為存檔提供 99.999999999% 的平均年耐用性。該服務將資料冗餘地儲存在多個設施以及每個設施內的多個設備上。為了提高持久性,Amazon Glacier 會在多個設施中同步儲存您的數據,然後在上傳檔案時返回 SUCCESS。與需要費力的資料驗證和手動修復的傳統系統不同,Glacier 會定期執行系統的資料完整性檢查,並具有自動自我修復功能。

這意味著您的任何一個檔案只有 0.00000000001 (1e-11) 的機率在一年的時間裡。換句話說,如果您在 Glacier 中儲存 1000 億個檔案一年,您可能會丟失其中一個。

如果您需要額外的保證,請考慮將資料上傳到多個 Glacier 區域或另一個地理區域中完全不同的服務提供者。

答案2

通常,如果您不完全信任儲存媒體的可靠性,則需要引入自己的可修復冗餘。

執行此操作的一種暴力且快速而骯髒的方法只是將所有內容上傳兩次。你可能不想這樣做。

它涉及到,但如果您將文件分成小塊,並使用諸如快速帕。 (這是一個教程)那麼我相信如果文件丟失,它可以恢復。這通常用於提高透過 Usenet 傳輸和「檢索」二進位檔案的可靠性(從來沒有真正設計過這樣做),但它可以用於任何您想要具有這種程度的冗餘的地方。

答案3

舊的 PAR 格式有替代方案:DVD災難、DAR 和pyFileFixity(我開發的)。但是雲端服務當然應該有自己的資料保存系統,因為隨著它們提供的儲存空間,資料損壞率會變得非常高,所以無論如何你應該是安全的。

相關內容