我正在尋找一種工具來節省空間地歸檔每天甚至每天更改兩三次的部落格。我並不是說個別部落格文章會發生變化 - 無論如何都不會定期更改 - 我只是指添加新的部落格條目並將舊的條目移至首頁。我發現的一個問題是,多次歸檔同一個部落格條目的效率很低。理想情況下,對同一條目的修訂應該存檔,但原始版本不需要存檔,因為修訂可能是由於改進或更正而導致的。
這是一個包含文字和靜態圖像的 blogspot.com 部落格。首選 Linux 解決方案。
答案1
一種解決方案是將其儲存在 Git 儲存庫中。
由於 Git 使用基於內容的尋址,因此未更改的檔案在儲存庫中佔用的額外空間可以忽略不計。修訂版也佔用很少的空間,因為它儲存差異。最初,blob 是單獨壓縮儲存的,但 Git 會定期將檔案組合成包,從而更有效地壓縮。您也可以使用 手動呼叫該功能git gc
。
獲取網站資料的一個簡單方法是使用wget --mirror
.或者,查看部落格網站是否提供 XML API(透過避免歸檔樣板 HTML,這將更加節省空間)。您想要將頁面下載到目前工作樹。
然後,下載完成後,將所有內容新增並提交至 git 儲存庫。因此,每次提交都代表一個時間快照。