在過去的一個月裡,我注意到我們的戴爾 PowerEdge T630(Ubuntu 14.04.3 LTS) 伺服器意外重啟(1 月 29 日為手動重啟):
$cat /var/log/wtmp.report | grep boot | grep -v 'Jan 29'
reboot system boot 3.13.0-77-generi Wed Feb 10 09:00 - 13:59 (04:58)
reboot system boot 3.13.0-76-generi Wed Jan 27 09:01 - 10:47 (2+01:45)
reboot system boot 3.13.0-74-generi Tue Jan 19 10:34 - 10:47 (10+00:13)
reboot system boot 3.13.0-74-generi Wed Jan 13 09:02 - 10:47 (16+01:45)
所以,在所有未指定的重啟中,它們都是(除 1 月 19 日外)似乎每隔一個星期三上午 9:00 左右(UTC-6)進行一次。
我已經檢查了所有常見的嫌疑犯(/var/log/kern.log
、/var/log/auth.log
、/var/log/dmesg
、/var/log/syslog
等),但找不到任何重新啟動的原因。
我在跑失敗2禁止在伺服器上;每當我手動重新啟動時,我都會收到一封來自 Fail2ban 的自動電子郵件,說明 SSH 已停止,然後又收到另一封電子郵件,說明它已開始備份。有趣的是,當發生這些未指定的重新啟動時,我只收到一封電子郵件,說 SSH 已開始備份(也就是說,我沒有收到有關 SSH 關閉的電子郵件)。
有誰對可能導致此問題的原因有任何想法嗎?這台伺服器僅供我們使用,當然不會被推到任何容量的極限。伺服器正在運行傳統的(阿帕契)LAMP 堆棧,以及 SSH 和各種其他東西,例如 python 等等。
答案1
我發現這是與我們大樓相關的電力問題。當建築物每半週出現一次電源閃爍時,伺服器所連接的 PSU 發生故障且無法正常運作。無論如何,購買一個新的 PSU 解決了這個問題。