Estou procurando uma ferramenta para arquivar com eficiência de espaço um blog que muda todos os dias ou mesmo duas ou três vezes por dia. Não quero dizer que as postagens individuais do blog mudem - pelo menos não regularmente - quero apenas dizer que novas entradas do blog são adicionadas e as entradas mais antigas são deslocadas para baixo na primeira página. Um problema que vejo é que será ineficiente arquivar a mesma entrada do blog várias vezes. Idealmente, as revisões da mesma entrada devem ser arquivadas, mas o original não precisa ser arquivado, pois a revisão provavelmente se deve a uma melhoria ou correção.
É um blog blogspot.com com texto e imagens estáticas. Uma solução Linux é preferida.
Responder1
Uma solução é armazená-lo em um repositório Git.
Como o Git usa endereçamento baseado em conteúdo, os arquivos inalterados ocupam um espaço adicional insignificante no repositório. As revisões também ocupam pouco espaço porque armazenam diferenças. Inicialmente, os blobs são armazenados compactados individualmente, mas o Git combina periodicamente os arquivos em pacotes, que são compactados de forma mais eficaz. Você também pode invocar manualmente essa funcionalidade usando git gc
.
Uma maneira simples de buscar os dados do site é usar wget --mirror
. Como alternativa, verifique se o site do blog fornece uma API XML (que seria mais eficiente em termos de espaço, evitando o arquivamento de HTML padrão). Você deseja fazer download das páginas na árvore de trabalho atual.
Então, após o término do download, adicione e envie tudo para o repositório git. Portanto, cada commit representa um instantâneo no tempo.