Передовой опыт создания избыточного архива для долгосрочного хранения в облаке

Передовой опыт создания избыточного архива для долгосрочного хранения в облаке

Я хочу создать цифровой архив фотографий, документов и других важных вещей для хранения в облаке (вероятно, Amazon Glacier). Желательно по одному году на архив, до 10 гигабайт каждый. Я хочу быть уверенным, что ошибки хранения и сетевой передачи ничего не сломают, поэтому я хочу включить солидные накладные расходы на восстановление данных.

Есть ли у вас какие-либо рекомендуемые лучшие практики и инструменты? RAR с данными для восстановления? Стоит ли хранить контрольную сумму каждого файла вместе с архивом? Есть ли еще предложения?

решение1

Если вы хотите включить в резервные копии дополнительные данные для восстановления, вы можете использоватьParchive-type solutions. Вы указываете объем избыточных/восстановительных данных, которые вы хотите сгенерировать, и как (если вообще) их разделить. Преимущество использования этого метода в том, что он не зависит от фактических методов резервного копирования и хранения, которые вы выбираете. Вы можете использовать zip или tar или Windows Backup или что-либо еще, что генерирует файлы, и пропускать их через инструменты Parchive для генерации дополнительных файлов восстановления.

Помните, что сервисы Amazon Glacier и S3 имеют возможность генерировать контрольную сумму файла, поэтому после загрузки файла вы можете сравнить локальную и удаленную контрольные суммы, чтобы убедиться, что файл передан без ошибок.

Более того, вот что Amazon говорит по этому поводу:

Прочный– Amazon Glacier разработан для обеспечения среднегодовой долговечности 99,999999999% для архива. Сервис избыточно хранит данные в нескольких хранилищах и на нескольких устройствах в каждом хранилище. Для повышения долговечности Amazon Glacier синхронно хранит ваши данные в нескольких хранилищах, прежде чем вернуть SUCCESS при загрузке архивов. В отличие от традиционных систем, которые могут требовать трудоемкой проверки данных и ручного восстановления, Glacier выполняет регулярные, систематические проверки целостности данных и создан для автоматического самовосстановления.

Это означает, что вероятность того, что любой из ваших файлов будет удален, составляет всего 0,00000000001 (1e-11).пуфв течение одного года. Другими словами, если вы храните 100 миллиардов файлов в Glacier в течение года, вы можете ожидать потери одного из них.

Если вам нужна дополнительная уверенность, рассмотрите возможность загрузки своих данных в несколько регионов Glacier или совершенно другому поставщику услуг в другом географическом регионе.

решение2

Как правило, если вы не полностью уверены в надежности своего носителя информации, вам следует внедрить собственную систему резервирования, пригодную для ремонта.

Грубый и быстрый и грязный способ сделать это — просто загрузить все дважды. Вы, вероятно, не хотите этого делать.

Это сложно, но если вы разделите свои файлы на небольшие блоки и создадите файлы «par2» с помощью такого инструмента, какQuickPar. (вот руководство) то я считаю, что если файл отсутствует, его можно восстановить. Обычно это используется для повышения надежности двоичных файлов, передаваемых и «извлекаемых» через Usenet (который никогда не был предназначен для этого), но это можно использовать в любом месте, где вам нужен такой уровень избыточности.

решение3

Существуют альтернативы старому формату PAR:DVDisaster, ДАР иpyFileFixity(которую я разработал). Но облачные сервисы, конечно, должны иметь свою собственную систему сохранения данных, потому что с тем объемом хранилища, который они предлагают, скорость повреждения данных становится пугающе высокой, так что в любом случае вы должны быть в безопасности.

Связанный контент