伺服器崩潰診斷...是否有任何「黑盒子記錄器」風格的程式可用

伺服器崩潰診斷...是否有任何「黑盒子記錄器」風格的程式可用

我的 Redhat 伺服器每三週左右就會在周日早上 4:15 左右崩潰。 (好吧,那是周日,最後兩個是周四早上 4:15 左右)查看日誌(mysql、httpd、訊息)沒有任何線索說明原因。他們似乎只是停了下來。

我運行了一個小腳本,每 15 分鐘讀取一次內存讀數,此時它也停止了(正常讀數)。

伺服器位於提供者的遠端位置,因此我只能透過網路存取它。我使用 Plesk。

這似乎是一項固定工作或導致問題的原因。我在 crontab 中看不到任何內容。

所以我的問題是......還有其他人有過這種情況並且可以提供建議嗎?失敗了。

有誰知道一種獲得比訊息檔案提供的更詳細日誌記錄的方法嗎?我正在考慮一個黑盒子風格的記錄程序,或者可能是一些簡單的東西,例如在某個地方增加一個選項來提高訊息日誌中的報告等級。

謝謝

答案1

這是安排 cron.daily 作業的時間,所以我會先查看 /etc/cron.daily 或每週或每月

您可以安裝 atop,它將每 10 分鐘記錄一次進程快照

或者,您可以安裝 psacct 並使用 accton 和 lastcomm 查看正在執行的內容

開啟稽核也是一個選項,請參閱auditd(8)

答案2

您可以啟用核心轉儲,這將在伺服器崩潰時將系統記憶體複製到檔案中。

下一個問題是如何處理 coredump 檔案...如果您周圍有人了解 gdb,他們可能能夠對此做一些事情...或者您可能可以使用“strings”命令來轉儲所有內容從coredump 檔案中查看文本,也許您能夠找到一些東西。

答案3

登入另一個連接良好的盒子,運行 screen,ssh 進入伺服器並尾部 kern.log、daemon.log、syslog、各個螢幕視窗上的消息。 (control-A、c 建立新窗口,Control-A、D 分離,screen -r 恢復)

當伺服器再次鎖定時,您應該在螢幕會話中保留日誌的尾部,即使在機器掛起時它們尚未正確刷新到磁碟。

如果您懷疑內核恐慌或哎呀

核心.panic=5 核心.panic_on_oops=5

在 sysctl.conf 或等效檔案中將等待 5 秒,可能允許磁碟機刷新,然後重新啟動。

相關內容