Я ищу инструмент для эффективного использования пространства в архиве блога, который меняется каждый день или даже два-три раза в день. Я не имею в виду, что отдельные записи блога меняются — по крайней мере, нерегулярно — я просто имею в виду, что добавляются новые записи блога, а старые записи сдвигаются вниз на первой странице. Одна из проблем, которую я вижу, заключается в том, что будет неэффективно архивировать одну и ту же запись блога несколько раз. В идеале следует архивировать изменения одной и той же записи, но оригинал не обязательно, поскольку изменение, скорее всего, вызвано улучшением или исправлением.
Это блог blogspot.com с текстом и статическими изображениями. Предпочтительно решение linux.
решение1
Одним из решений является сохранение его в репозитории Git.
Поскольку Git использует адресацию на основе содержимого, неизмененные файлы занимают незначительное дополнительное место в репозитории. Ревизии также занимают немного места, поскольку они хранят различия. Изначально BLOB-объекты хранятся в сжатом виде по отдельности, но Git периодически объединяет файлы в пакеты, которые сжимаются более эффективно. Вы также можете вручную вызвать эту функцию с помощью git gc
.
Простой способ получить данные веб-сайта — использовать wget --mirror
. В качестве альтернативы посмотрите, предоставляет ли сайт блога XML API (что было бы более эффективно с точки зрения пространства, избегая архивации шаблонного HTML). Вы хотите загрузить страницы в текущее рабочее дерево.
Затем, после завершения загрузки, добавьте и зафиксируйте все в репозитории git. Таким образом, каждый коммит представляет собой снимок во времени.