
Debian システムに問題があります。今日、ちょうど 04:00 に nagios への応答が停止しました。SSH 経由でもログインできません。このようなことが起こるのは初めてではありませんが、nagios でこれを観察したのは初めてです。
このボックスには、USB スティックから起動するという、特別で珍しい特徴が 1 つあります。そのため、/var /tmp を tmpfs にマッピングするのは賢いアイデアだと思いました。
再起動すれば再び動作するはずです。ただし、/var/log はメモリにマップされているため、再起動後にログを読み取ることができません。
次の問題は、ハードウェアがオフサイトにあるため、ローカルにログインできないことです。
最初は、tmpfs がいっぱいになっていることが問題である可能性があります。しかし、nagios は接続できなくなる前に警告しませんでした。警告しきい値を 90% の空き領域に設定しました。したがって、これは原因ではないようです。
他にも興味深い症状があるかもしれません:
- openVPNサーバーはまだ動作しています
- ルーティングはまだ機能する
- SSHポートはまだ開いており、ユーザー名を求められます。しかし、パスワードを入力すると接続が切断されます。
- ポート80は開いているが、Apacheは応答しない
私が最も興味を持っている質問は、Debian システムは午前 4 時に何ができるのかということです。何らかの更新チェックでしょうか?
正しい方向へのアイデアや指針があれば、ぜひ教えてください。ヒントを得るために、nagios で監視する価値のあるものはありますか? 次回は、スワップ使用量の監視を追加します。
答え1
サーバーのメモリが不足した場合にこの問題が発生しました。実行中のプロセスはすべて継続されますが、新しいプロセスの割り当てに失敗する可能性があります。
メモリ使用量を監視している場合は、これで質問の答えが得られるかもしれません。リモートでログを記録することもできます。
しかし、あなたの質問に答えるには、/etc/cron.dailyを確認してください - これらのスクリプト5月午前 4 時に実行されます。/etc/cron.d/ と /etc/crontab をチェックして、スケジュールされたタスクがあるかどうかを確認することもできます。