如何自動更新網站鏡像(某些頁面除外)?

如何自動更新網站鏡像(某些頁面除外)?

我目前正在我的伺服器上鏡像一個網站。網站本身很少更新,但更新得足夠多,資訊可能很快就會過時。

我首先使用 wget 對其進行鏡像,效果很好,但我做了一些更改:

  • 原始的index.html使用了框架,但該網站還提供了一個main.html,它本質上是index.html,但沒有框架。我刪除了index.html並重新命名為main.html。
  • 我不想鏡像網路聊天、部落格或論壇,所以我刪除了這些檔案和目錄,並將目錄建立為“部落格”、“論壇”和“聊天”,並在每個目錄中放置了一個php 重定向,將訪客重定向到原始網站。

我想自動更新鏡像(也許每 24-72 小時更新一次),但保留我所做的更改。這可能嗎?我該怎麼做呢?我完全不知道如何。

感謝您的任何幫助! :)

答案1

我假設你正在使用wget --miror.可能的解決方案:

  1. 如果要保留的部分位於目錄中,則這可能有效:

    wget --exclude-directories=LIST

  2. 如果您可以容忍它,那麼您允許競爭條件,您可以讓 wget 覆蓋某些內容,然後使用恢復它們的腳本將它們覆蓋回來。

  3. 防止覆蓋您不想更改的文件。

    chmod 444 index.html

相關內容