F5 LTM часто завершает процессы с помощью SIGKILL

F5 LTM часто завершает процессы с помощью SIGKILL

У нас есть устройство BIP-IP 6400 LTM, которое убивает процессы с пугающей частотой. Загрузка ЦП постоянно составляет около 23%, так что это не проблема.

Вот пример из /var/log/ltm:

Oct  7 08:21:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25338 exited with signal = 9
Oct  7 08:22:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25587 exited with signal = 9
Oct  7 08:22:34 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25793 exited with signal = 9
Oct  7 08:23:10 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26260 exited with signal = 9
Oct  7 08:23:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26584 exited with signal = 9
Oct  7 08:23:40 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26647 exited with signal = 9
Oct  7 08:23:45 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26699 exited with signal = 9
Oct  7 08:23:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26805 exited with signal = 9
Oct  7 08:25:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 28079 exited with signal = 9
Oct  7 08:27:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29286 exited with signal = 9
Oct  7 08:27:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29307 exited with signal = 9
Oct  7 08:27:56 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29793 exited with signal = 9
Oct  7 08:29:20 local/pri-4600 info bigd[3471]: reap_child: child process PID = 30851 exited with signal = 9
Oct  7 08:33:00 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1122 exited with signal = 9
Oct  7 08:33:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1299 exited with signal = 9
Oct  7 08:34:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2054 exited with signal = 9
Oct  7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2784 exited with signal = 9
Oct  7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2807 exited with signal = 9
Oct  7 08:35:35 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3015 exited with signal = 9
Oct  7 08:36:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3601 exited with signal = 9

Нормально ли это? Если нет, то что может быть причиной этого?

решение1

bigd — это демон мониторинга на BIG-IP, поэтому, похоже, что используемый монитор дает сбой. Вам следует обратиться в службу поддержки и загрузить qkview на ihealth.f5.com. Вот решение, связанное с этим сообщением об ошибке:

https://support.f5.com/kb/en-us/solutions/public/17000/000/sol17092.html

решение2

Это была известная ошибка в используемом нами программном обеспечении BIG-IP версии 10.2.4.

От службы поддержки F5:

...вы столкнулись с известной проблемой, отслеживаемой внутри компании как: ошибка с идентификатором 539130 «bigd может заблокироваться при обработке SIGCHLD, что приводит к сбою bigd heartbeat и SIGABRT» -=Условие=- Внешние мониторы, которые работают в течение длительного времени и завершаются следующей итерацией монитора, могут привести к сбою bigd и ядра, что приводит к временному сбою в мониторинге работоспособности.

Решением стало обновление программного обеспечения до Hotfix-BIGIP-10.2.4-HF12-866.11-ENG.

Связанный контент