La búsqueda de una herramienta crea archivos web que ocupan poco espacio.

La búsqueda de una herramienta crea archivos web que ocupan poco espacio.

Estoy buscando una herramienta para archivar de manera eficiente el espacio un blog que cambia todos los días o incluso dos o tres veces al día. No me refiero a que las publicaciones de blog individuales cambien (al menos no regularmente), solo quiero decir que se agregan nuevas entradas de blog y las entradas más antiguas se desplazan hacia abajo en la página principal. Un problema que veo es que será ineficiente archivar la misma entrada de blog varias veces. Lo ideal es que las revisiones de la misma entrada se archiven, pero no es necesario que se archive el original, ya que es probable que la revisión se deba a una mejora o corrección.

Es un blog de blogspot.com con texto e imágenes estáticas. Se prefiere una solución Linux.

Respuesta1

Una solución es almacenarlo en un repositorio de Git.

Dado que Git utiliza direccionamiento basado en contenido, los archivos sin cambios ocupan un espacio adicional insignificante en el repositorio. Las revisiones también ocupan poco espacio porque almacena diferencias. Inicialmente, los blobs se almacenan comprimidos individualmente, pero Git periódicamente combina archivos en paquetes, que se comprimen de manera más efectiva. También puedes invocar manualmente esa funcionalidad usando git gc.

Una forma sencilla de recuperar los datos del sitio web es utilizar wget --mirror. Alternativamente, compruebe si el sitio del blog proporciona una API XML (que ahorraría más espacio al evitar archivar HTML repetitivo). Quiere descargar las páginas en el árbol de trabajo actual.

Luego, una vez finalizada la descarga, agregue y confirme todo en el repositorio de git. Por tanto, cada confirmación representa una instantánea en el tiempo.

información relacionada