
前回の質問に戻りますが、LinuxDevOps から素晴らしいアドバイスをもらいましたが、それを部分的に無視することにしました。最悪の事態が発生しましたが、その理由も原因の調査方法もわかりません。
Ubuntu Server 13.10 を実行する専用サーバーがあります。
カーネルのアップデートで再起動が必要だったので、1 週間放置し、土曜日の夜 2 時に sudo reboot -r now を使用して再起動しました。サーバーは再び起動しませんでした。SSH 経由で接続することも、HTTP 経由で Apache に接続することもできなくなりました。
ロックアウトされたため、データセンターに助けを求めなければなりませんでした。データセンターが戻ってきたときには、サーバーを再起動したらすべて正常になり、オンラインに戻ったとのことでした。
ということで、私は苦い経験から学びました。LinuxDevOps が回答で太字で示したポイント 1 は正しかったのです。私はそれを、スキップできるありそうもない予防策だと受け止めました...
何が問題だったのかを調査するにはどうすればいいでしょうか?
現時点では、同じ問題が繰り返されないという確証がないため、サーバーを再起動することはできません。
ありがとう。
Apr 6 02:20:24 kernel: imklog 5.8.11, log source = /proc/kmsg started.
Apr 6 02:20:34 kernel: imklog 5.8.11, log source = /proc/kmsg started.
Apr 6 03:38:13 kernel: imklog 5.8.11, log source = /proc/kmsg started.
Apr 6 03:38:13 kernel: [ 0.000000] Initializing cgroup subsys cpuset
Apr 6 03:38:13 kernel: [ 0.000000] Initializing cgroup subsys cpu
Apr 6 03:38:13 kernel: [ 0.000000] Initializing cgroup subsys cpuacct
etc... normal startup
つまり、最初の 2 つのエントリは、特定のポイントまでブートしようとしたように見えますが、1 時間後にデータセンターが再起動すると、通常の起動になります。これは /var/log/kern.log からのものです。
ありがとう。
答え1
今できる唯一のことは、ログを調べて、発生した問題に関連する可能性のある情報を探すことです。ええと、それだけです。