
我們在粗粒度計算叢集中擁有一個由 75 個 Win2k3 節點組成的叢集。此叢集位於大量防火牆後面並駐留在其自己的 VLAN 中。各種規模和類型的作業都在叢集上運行,並且所有運行的可執行檔都是客製化的。
(編者:關於我們的可執行檔的附加說明)這些作業的持續時間從 30 秒到 7 天不等,可能包含一個可執行檔或 2000 個子作業(持續時間較短)。顯然,我們正在努力避免 IT 部門在 7 天的生產工作期間安排重啟的情況。
我們有調度軟體,可以容納粗粒度叢集的所有正常任務,我們可以控制哪些機器處於活動狀態以進行提交等。協調兩個系統幫忙。
目前,無論在叢集上運行什麼,補丁計劃都是超級星期二之後的星期日。每當我們想要延遲為長時間運行的生產作業修補機器時,我們都必須申請豁免。基本上,雖然我們的團隊負責機器,但我們幾乎無法控制 IT 的修補程式。
- 對於生產 Windows 叢集來說,每月依照 MS 的計畫進行修補是否合理?
- WSUS 中是否有軟體掛鉤可以讓我們說「請先不要重新啟動」?
答案1
1.對於生產 Windows 叢集來說,按照 MS 的時間表每月打補丁是否合理?
是的,但是叢集不應該有任何與補丁相關的停機時間,因為它應該將作業故障轉移到另一個節點 - 我不會同時修補整個叢集(這將是瘋狂的)
2.WSUS 中是否有軟體掛鉤可以讓我們說「請先不要重新啟動」?
最終用戶無法停止 WSUS 更新或重新啟動,但在我看來,您的團隊和 IT 團隊之間確實存在溝通問題;但是,您應該能夠一次丟失 1 個節點,而對生產影響很小。
答案2
透過使用 Config Mgr 管理更新的部署,您可以阻止伺服器重新啟動。因此,更新將被套用(但可能要等到重新啟動後才會生效),並且 IT 將獲得顯示那些等待重新啟動的伺服器的報告。他們可以輕鬆地為您提供此列表,並且我希望您可以輕鬆地手動安排特定節點的重新啟動,而不會造成太多中斷。 IT 可以輕鬆地進行故障安全部署(強制重新啟動)和較長的截止時間,因此,如果您未能遵守協議,這最終將強制更新和重新啟動!
對於標準更新部署,IT(和您)可能希望完全靜默(非重新啟動部署)的截止日期非常短,並且還需要稍長的截止日期部署(非靜默),以便您在登入伺服器時會看到通知。這些部署都不應強制重新啟動。
您仍然可能會遇到這樣的情況:由於庫或其他程式碼元件在未使用時被更新,然後在重新啟動之前被使用,從而使其餘更新生效,因此出現故障。
這是獲得您和 IT 想要的東西的有效方法,並且您每個人都對正在發生的事情有一定的了解。根據部署報告哪些伺服器處於何種狀態對你們雙方都非常有用。
答案3
聽起來您的 IT 部門似乎有很多「與人交談」的態度。您需要讓他們坐下(或用啤酒賄賂他們?)解釋您的情況並看看他們是否可以做一些事情,例如創建具有手動補丁批准的下游 WSUS 伺服器。
WSUS 的設定均由群組原則設置,這些設定在網域或 OU 層級的 Active Directory 中設定。如果伺服器位於沒有單獨 OU 的公司網域中,那麼它們將獲得其他人正在獲得的內容,但這聽起來並不合適。
如果您無法與 IT 部門解決問題,那麼可以將電腦從網域中刪除嗎?