F5 LTM は SIGKILL でプロセスを頻繁に強制終了します

F5 LTM は SIGKILL でプロセスを頻繁に強制終了します

弊社の BIP-IP 6400 LTM デバイスでは、驚くほどの頻度でプロセスが強制終了されます。CPU の使用率は一貫して約 23% なので、問題ではありません。

以下はサンプルです/var/log/ltm:

Oct  7 08:21:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25338 exited with signal = 9
Oct  7 08:22:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25587 exited with signal = 9
Oct  7 08:22:34 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25793 exited with signal = 9
Oct  7 08:23:10 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26260 exited with signal = 9
Oct  7 08:23:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26584 exited with signal = 9
Oct  7 08:23:40 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26647 exited with signal = 9
Oct  7 08:23:45 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26699 exited with signal = 9
Oct  7 08:23:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26805 exited with signal = 9
Oct  7 08:25:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 28079 exited with signal = 9
Oct  7 08:27:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29286 exited with signal = 9
Oct  7 08:27:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29307 exited with signal = 9
Oct  7 08:27:56 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29793 exited with signal = 9
Oct  7 08:29:20 local/pri-4600 info bigd[3471]: reap_child: child process PID = 30851 exited with signal = 9
Oct  7 08:33:00 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1122 exited with signal = 9
Oct  7 08:33:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1299 exited with signal = 9
Oct  7 08:34:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2054 exited with signal = 9
Oct  7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2784 exited with signal = 9
Oct  7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2807 exited with signal = 9
Oct  7 08:35:35 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3015 exited with signal = 9
Oct  7 08:36:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3601 exited with signal = 9

これは正常ですか? そうでない場合、原因は何でしょうか?

答え1

bigd は BIG-IP 上の監視デーモンなので、使用中のモニターがクラッシュしているように見えます。サポートにケースを開いてもらい、qkview を ihealth.f5.com にアップロードしてください。このエラー メッセージに関連する解決策は次のとおりです。

https://support.f5.com/kb/en-us/solutions/public/17000/000/sol17092.html

答え2

これは、私たちが実行していた 10.2.4 BIG-IP ソフトウェアの既知のバグでした。

F5 サポートより:

...内部で追跡されている既知の問題に遭遇しました: バグ ID539130「SIGCHLD の処理中に bigd がデッドロックし、bigd ハートビート障害と SIGABRT が発生する」 -=条件=- 長時間実行され、モニターの次の反復によって強制終了される外部モニターにより、bigd がクラッシュしてコア化される可能性があり、これによりヘルス モニタリングが一時的に中断されます。

修正方法は、ソフトウェアを で更新することでしたHotfix-BIGIP-10.2.4-HF12-866.11-ENG

関連情報