私は、GitLab と MatterMost (Slack チャットの代替) をホストするために、かなりシンプルな社内サーバーを運用しています。私が抱えている問題は、サーバーを再起動する必要がある場合、10 回中 9 回はサーバーが自動的に再起動しない (ハングアップ - サーバー ルームの黒い画面が表示される) ため、サーバー ルームに行ってハードリセットする必要があることです。これは、手動で再起動するためにオフィスにいなくても問題なく再起動できるようにしたいので、問題です。
ここに私のコピーがあります/var/log/syslog
。私はこうしたログを追跡するのは初めてで、明らかな危険信号は見当たりません。この状況では、このログ ファイルを確認すべきでしょうか?
答え1
まず IPMI と EDAC からサービスをオフにして、どれかが原因かどうかを確認します。パッケージは最新であると想定しています。より新しいカーネルを試してください。
RAM をテストしましたか? ECC ですか?
「ハング」というときは、ディスクが動作していますか? 他に動作を示唆するものはありますか?