장기간 클라우드 스토리지를 위한 중복 아카이브 생성의 모범 사례

장기간 클라우드 스토리지를 위한 중복 아카이브 생성의 모범 사례

사진, 문서 및 기타 중요한 자료의 디지털 아카이브를 만들어 클라우드(예: Amazon Glacier)에 저장하고 싶습니다. 아카이브당 1년이 바람직하며 각각 최대 10GB입니다. 스토리지 및 네트워크 전송 오류로 인해 문제가 발생하지 않도록 하고 싶기 때문에 확실한 복구 데이터 오버헤드를 포함하고 싶습니다.

여기에 권장되는 모범 사례와 도구가 있습니까? 복구 데이터가 포함된 RAR? 아카이브와 함께 각 파일 체크섬을 저장하는 것이 가치가 있습니까? 다른 제안이 있나요?

답변1

백업에 추가 복구 데이터를 포함하려면 다음을 사용할 수 있습니다.파이브- 유형의 솔루션. 생성하려는 중복/복구 데이터의 양과 분할 방법(있는 경우)을 지정합니다. 이 방법을 사용하면 선택한 실제 백업 및 저장 방법에 구애받지 않는다는 이점이 있습니다. zip, tar, Windows 백업 등 파일을 생성하고 Parchive 도구를 통해 공급하여 추가 복구 파일을 생성하는 기타 항목을 사용할 수 있습니다.

Amazon Glacier 및 S3 서비스에는 모두 파일 체크섬을 생성하는 기능이 있으므로 파일을 업로드한 후 로컬 및 원격 체크섬을 비교하여 파일이 오류 없이 전송되었는지 확인할 수 있습니다.

또한 Amazon은 이 주제에 대해 다음과 같이 말합니다.

튼튼한– Amazon Glacier는 아카이브에 대해 연평균 99.999999999%의 내구성을 제공하도록 설계되었습니다. 이 서비스는 여러 시설과 각 시설 내 여러 장치에 데이터를 중복 저장합니다. 내구성을 높이기 위해 Amazon Glacier는 아카이브 업로드 시 SUCCESS를 반환하기 전에 여러 시설에 데이터를 동기식으로 저장합니다. 힘든 데이터 검증과 수동 복구가 필요할 수 있는 기존 시스템과 달리 Glacier는 정기적이고 체계적인 데이터 무결성 검사를 수행하며 자동으로 자가 치유되도록 구축되었습니다.

이는 파일 중 하나가 손상될 확률이 0.00000000001(1e-11)에 불과하다는 것을 의미합니다.1년 동안. 달리 말하면, Glacier에 1년 동안 1,000억 개의 파일을 저장하면 그 중 하나가 손실될 것으로 예상할 수 있습니다.

추가적인 보장을 원한다면 데이터를 여러 Glacier 지역에 업로드하거나 다른 지역에 있는 완전히 다른 서비스 제공업체에 업로드하는 것을 고려해 보세요.

답변2

일반적으로 저장 매체의 신뢰성을 완전히 신뢰하지 않는 경우 자체적으로 복구 가능한 중복성을 도입하고 싶을 것입니다.

이를 수행하는 무차별적이고 빠르고 더러운 방법은 모든 것을 두 번 업로드하는 것입니다. 아마 당신은 그렇게 하고 싶지 않을 것입니다.

관련되어 있지만 파일을 작은 블록으로 분할하고 다음과 같은 도구를 사용하여 "par2" 파일을 생성하는 경우QuickPar. (여기 튜토리얼이 있습니다) 그러면 파일이 누락된 경우 복구할 수 있다고 생각합니다. 이는 일반적으로 유즈넷을 통해 전송 및 "검색"되는 바이너리 파일의 신뢰성을 높이는 데 사용되지만(실제로는 그렇게 설계되지 않았습니다), 이 수준의 중복성을 원하는 어느 곳에서나 사용할 수 있습니다.

답변3

이전 PAR 형식에 대한 대안이 있습니다.D재해, DAR 및pyFileFixity(내가 개발한 것). 하지만 클라우드 서비스에는 물론 데이터 보존을 위한 자체 시스템이 있어야 합니다. 클라우드 서비스가 제공하는 저장 공간으로 인해 데이터 손상 비율이 엄청나게 높아지므로 어떤 경우에도 안전해야 합니다.

관련 정보