Ubuntu 10.04 伺服器崩潰

Ubuntu 10.04 伺服器崩潰

我正在運行 Ubuntu 10.04 (x64) 作為 Web/mysql 伺服器。

伺服器對 SSH、Ping、HTTP 等沒有回應,具有實體存取權限的技術人員向我發送了以下螢幕截圖:

http://img442.imageshack.us/img442/389/img00062201012211332.jpg

在他重新啟動之前從連接的顯示器(並且情況已修復)。我不確定此資訊保存在哪個日誌中,因為重新啟動後檢查日誌後找不到文字。

誰能幫助我調查發生的事情並確保不再發生?

謝謝

答案1

核心恐慌可能來自多種原因,通常是模組問題(不適合您的硬體的驅動程式)或硬體問題。

就您的情況而言,如果問題不可重複,則更有可能是硬體原因。
它可能是內存(壞內存並不總是很容易識別)。

我將啟動伺服器 - 並在 grub 畫面中(啟動後)選擇“memtest86”選項。記憶體測試需要連續運行幾天。
如果3天後沒有錯誤,則記憶體為或許好的。

答案2

如果你沒有其他資訊(正如ring0所說,它不會保存到磁碟的某個地方),那麼你就無能為力了。

如果您想主動,或者這種情況隨機發生幾次,您可以嘗試 LKCD 來捕獲核心轉儲。 http://lkcd.sourceforge.net/

我不知道你有多少 RAM,但即使嘗試 memtest86 幾個小時也可能會有所幫助。顯然它不會捕獲真正罕見的錯誤。

我還建議您添加 kernel.panic=5 /etc/sysctl.conf。如果核心再次掛起,這將導致伺服器在 5 秒後自動重新啟動。

最後,我認為你應該始終進行某種熄燈管理。然後您可以登入並複製該訊息並自行重新啟動伺服器。

答案3

當伺服器長時間運行過高負載/過多進程時,我見過這樣的崩潰。為了大致檢查您的電腦上發生了什麼,我建議在您的伺服器上安裝監控框架,例如 munin - 這將有助於分析,以防這種情況再次發生。

答案4

這聽起來可能有點不對勁,但我在 64 位元伺服器上執行 Ubuntu x64 時遇到了問題。我經常遇到這些相同的錯誤和隨後的“凍結”問題。它嘗試刪除驅動程序,添加回驅動程序,花了幾個小時檢查錯誤,但沒有任何幫助。我最終透過安裝 32 位元版本的 Ubuntu 解決了這個問題。它有效,我不需要 64 位,所以我讓它運行。如果您需要 64 位,這不是一個好的解決方案,但它可能會為您提供一條探索之路。也許查找運行 Ubuntu 的伺服器,看看是否有已知的相容性問題。祝你好運。

相關內容