如何調試預防不穩定的IT環境?

如何調試預防不穩定的IT環境?

我不是 IT 管理員,而是軟體開發人員(微軟堆疊),我試圖了解我們的一位客戶的 IT 環境出了什麼問題。

我們已將客戶端\伺服器解決方案部署至中型企業。問題是,客戶的 IT 環境(主要是各種類型的 Microsoft 伺服器 - sql 伺服器、SharePoint、lync、IIS 伺服器等)顯得極度混亂和不穩定。由於管理員在伺服器上重新配置了某些內容,從而影響了我們在其上運行的軟體,因此似乎經常會出現一個或另一個系統故障。繼續查看並發現管理員更改了伺服器上的某些設置(影響我們的解決方案)而不是與我們的軟體直接相關的任何設置,需要花費大量的支援時間。

這不僅僅是我們的軟體,它似乎在他們的所有系統中都在發生,而且管理員似乎不斷地救火。當所有的骨牌都站起來時,有人改變了一些東西,再次將其中的一張推倒...

我將與他們的 IT 經理聊天,但我對 IT 管理實踐不是很了解。

有什麼需要檢視或質疑的?在 IT 管理員領域,是否有任何類型的最佳實踐或流程可以解決這個問題?其他建議?

答案1

一般來說,IT 的可靠性是透過幾種不同的實踐來提供的,即:

  • 存取控制
  • 更換管理層
  • 配置管理
  • 版本控制
  • 秘製醬料

存取控制只是限制誰可以對關鍵/生產系統進行更改。變更管理通常透過存取控制和票務系統來處理。在進行更改之前,請求必須得到更高級別人員的批准。組態管理透過使用外部工具嚴格控制所有組態參數來確保系統的一致性。這通常是透過群組原則或其他工具(如 Puppet/Chef/等)來實現的。修訂控制提供配置的歷史記錄。

Secret Sauce 是一個知道自己在做什麼的 IT 團隊。世界上所有的流程和協議都無法彌補錯誤的判斷和缺乏經驗/缺乏才華的工程師。

答案2

最好遵循的流程是「僱用有能力的人」恕我直言。如果系統管理員團隊不斷地救火並且不努力從結構上改善他們的環境,我會認為他們不適合這份工作。

答案3

你僱用的是不古怪、可靠的員工。沒有其他辦法。

聽起來他們有一個無能的管理員。管理員可能只是工作過度,沒有進行測試,並且一路上犯了錯誤。

你可以買他們的管理員系統與網路管理實踐。或者他們可以聘請已經了解這些事情的人。

相關內容