
我們有多個 LAMP 伺服器,每個伺服器都運行我們編寫的特殊腳本來報告各種系統指標。該報告每天運行,其想法是能夠快速通過並發現系統上的任何潛在問題。
每個 LAMP 伺服器都運行 RedHat Enterprise,並託管 40-50 個(並且還在不斷增長)面向公眾的網站(HTML、自訂 PHP 和 Drupal 網站的組合)。
以下是該腳本目前包含的內容:
- 伺服器負載和登入用戶
- 最近 10 次登入和時間
- 磁碟使用情況
- 各種日誌的最後 10 行(qmail、mysql、secure、apache error、package)
- 每個帳戶的使用者名稱、連接埠和上次登入時間
- 頂部轉儲
報告已經很長了,所以我希望盡可能簡潔。
您是否發現在此類腳本中包含其他重要指標?您會從這個清單中刪除任何一個嗎?
謝謝,團隊。
j
答案1
我會進行測試以確保您的環境正常。測試 PHP 是否正確運行(編寫一個簡單的 PHP 腳本來回顯某些內容,獲取它,確保您收到了預期的內容)、您的資料庫(只需連接並確保您可以看到資料庫)等等。
另外,如果您要對這些憑證執行 SSL,請檢查憑證是否過期、意外變更等。
答案2
答案3
我的建議是不要定期報告這些事情。您將被訊息淹沒,而人性決定了當問題確實出現時,您可能確實會忽略它。
相反,僅當這些變數之一異常時才報告。也許白天更頻繁。您可以使用監控和圖形系統(例如 Cacti),它會提醒您此類變更並保留歷史資料以供將來參考。
答案4
您確實想要持續監控。我們使用 Nagios 每分鐘多次檢查每個網路伺服器,以確保它們仍在工作。我們還監控我們的資料庫以及我們能想到的任何其他內容。隨著時間的推移,您將會遇到中斷並發現您應該監視的事情。
監控的另一面是某種圖表。我們使用 Munin,但仙人掌或神經節是常見的解決方案。圖形對於發現系統中的趨勢非常有價值。