過去 6 か月間稼働していたサーバーが今日再起動されました。今のところ理由はわかりません。次の点を確認しました...
- 最後の再起動では「reboot system boot 4.14.0-generic」と表示されます
- /var/log/syslog - 再起動/パニックのエントリなし 午前 11:21 - 最後のアプリケーション ログ (一般的なログ) 午前 11:23 - システム起動ログ 午前 11:24 - アプリケーション ログの再開
- /var/messages - その時点の再起動に関連するエントリは見つかりませんでした。
- /proc/sys/kernel/panic は 0 です。
- /etc/apt/apt.conf.d/50unattended-upgrades //Unattended-Upgrade::Automatic-Reboot "false";
- 管理コンソール (サーバー) を確認しましたが、アクティビティとハードウェア アラームは報告されていません。
サーバーは問題なく 1 分で起動しましたが、その理由を知りたいです。
どうか私をこの底まで導いてください...
答え1
Gerald が述べたように、Ubuntu 16.04 は古くなっているため、アップグレードする必要があります (または、20.04 を搭載した新しいサーバーを入手して、古いサーバーをオフにします)。
6 か月間連続して実行した後、再起動を強制する小さな不具合が発生する可能性は低くありません。これにはいくつかの理由があり、確認したことからヒントが得られる可能性がありますが、まったく何も表示されない場合は、主に 2 つの理由が考えられます。
- 停電した
- ソフトウェアで検出できなかったハードウェア障害で、サーバーには少なくともシャットダウンできるウォッチドッグが搭載されています (APCI メッセージを送信した可能性がありますが、登録されている可能性があります。ハードウェアが正しく機能していない場合、ソフトウェアは問題を報告できません)
自動的に再起動しなかった場合は、単に停止しただけであり、これもハードウェアの問題を示しており、ソフトウェアではそれに対処する機会がなかったことになります。
この/proc/sys/kernel/panic
ファイルは、カーネルがエラーを検出したときにカーネルに何をすべきかを指示するフラグです(つまりソフトウェア)。詳細については、ここゼロだと言うので、パニック時にソフトウェアで自動的に再起動することはありません。
私の場合、Bluetooth レシーバーに問題があったことがあります。非常に多くのヒットを受信するため、数分後にカーネルがロックアップします。ただし、ログには明確に報告されていません。ただし、そのコンピューターにはデバッグ モードがあり、USB ポートでメッセージをリッスンできました。これにより、必要な情報 (Bluetooth に関する大量のメッセージ) が得られました。これをオフにすると、システムは再び安定しました。イベントは 1 つだけだったので、心配する必要はありません。何度も繰り返される場合は、別のハードウェアの使用を検討する時期かもしれません。