サーバークラッシュ診断...「ブラックボックスレコーダー」スタイルのプログラムは存在するか

Question 1

これはcron.dailyジョブがスケジュールされている時間なので、まず/etc/cron.daily、weekly、monthlyを調べます。

10分ごとにプロセスのスナップショットを記録するatopをインストールできます

あるいは、psacctをインストールし、acctonとlastcommを使用して何が実行されたかを確認することもできます。

監査をオンにすることもオプションです。auditd(8)を参照してください。

Answer

これはcron.dailyジョブがスケジュールされている時間なので、まず/etc/cron.daily、weekly、monthlyを調べます。

10分ごとにプロセスのスナップショットを記録するatopをインストールできます

あるいは、psacctをインストールし、acctonとlastcommを使用して何が実行されたかを確認することもできます。

監査をオンにすることもオプションです。auditd(8)を参照してください。

Question 2

コアダンプを有効にすると、サーバーがクラッシュしたときにシステムメモリがファイルにコピーされます。

次の問題は、コアダンプファイルをどうするかです... gdb についてすべて知っている人が近くにいる場合は、その人が何かできるかもしれません... または、"strings" コマンドを使用して、コアダンプファイルからすべてのテキストをダンプし、何かを見つけることができるかもしれません。

Answer

コアダンプを有効にすると、サーバーがクラッシュしたときにシステムメモリがファイルにコピーされます。

次の問題は、コアダンプファイルをどうするかです... gdb についてすべて知っている人が近くにいる場合は、その人が何かできるかもしれません... または、"strings" コマンドを使用して、コアダンプファイルからすべてのテキストをダンプし、何かを見つけることができるかもしれません。

Question 3

適切に接続されている別のボックスにログオンし、screen を実行し、サーバーに ssh して、kern.log、daemon.log、syslog、個々の screen ウィンドウのメッセージを追跡します。(control-A、c で新しいウィンドウを作成し、Control-A、D でデタッチし、screen -r で再開します)

サーバーが再びロックアップすると、マシンがハングしたときにログが適切にディスクにフラッシュされていなかったとしても、ログの末尾が screen セッションに残っているはずです。

カーネルパニックやエラーが疑われる場合

カーネル.パニック=5 カーネル.パニック_on_oops=5

sysctl.conf または同等のファイルでは、5 秒間待機し、ドライブがフラッシュされるのを待ってから再起動します。

Answer