도구를 찾으면 공간 효율적인 웹 아카이브가 생성됩니다.

도구를 찾으면 공간 효율적인 웹 아카이브가 생성됩니다.

저는 매일 또는 하루에 두세 번씩 바뀌는 블로그를 공간 효율적으로 보관할 수 있는 도구를 찾고 있습니다. 개별 블로그 게시물이 정기적으로 변경된다는 의미는 아닙니다. 단지 새 블로그 항목이 추가되고 이전 항목이 첫 페이지 아래로 이동한다는 의미입니다. 내가 보기에 한 가지 문제는 동일한 블로그 항목을 여러 번 보관하는 것이 비효율적이라는 것입니다. 이상적으로는 동일한 항목에 대한 개정 사항을 보관해야 하지만 개선이나 수정으로 인해 개정되었을 가능성이 높으므로 원본은 보관될 필요가 없습니다.

텍스트와 정적 이미지가 포함된 blogspot.com 블로그입니다. Linux 솔루션이 선호됩니다.

답변1

한 가지 해결책은 Git 저장소에 저장하는 것입니다.

Git은 콘텐츠 기반 주소 지정을 사용하므로 변경되지 않은 파일은 저장소에서 무시할 만한 추가 공간을 차지합니다. 개정판은 차이점을 저장하기 때문에 공간을 거의 차지하지 않습니다. 처음에는 Blob이 개별적으로 압축되어 저장되지만 Git은 주기적으로 파일을 팩으로 결합하여 보다 효율적으로 압축됩니다. 를 사용하여 해당 기능을 수동으로 호출할 수도 있습니다 git gc.

웹사이트 데이터를 가져오는 간단한 방법은 wget --mirror. 또는 블로그 사이트에서 XML API(보일러플레이트 HTML 보관을 방지하여 공간 효율적)를 제공하는지 확인하세요. 현재 작업 트리에 페이지를 다운로드하려고 합니다.

그런 다음 다운로드가 완료된 후 모든 것을 git 저장소에 추가하고 커밋합니다. 따라서 각 커밋은 시간에 따른 스냅샷을 나타냅니다.

관련 정보