Tenemos un dispositivo BIP-IP 6400 LTM que está matando procesos con una frecuencia alarmante. La CPU tiene constantemente una utilización de alrededor del 23%, por lo que eso no es un problema.
Aquí hay una muestra de /var/log/ltm
:
Oct 7 08:21:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25338 exited with signal = 9
Oct 7 08:22:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25587 exited with signal = 9
Oct 7 08:22:34 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25793 exited with signal = 9
Oct 7 08:23:10 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26260 exited with signal = 9
Oct 7 08:23:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26584 exited with signal = 9
Oct 7 08:23:40 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26647 exited with signal = 9
Oct 7 08:23:45 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26699 exited with signal = 9
Oct 7 08:23:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26805 exited with signal = 9
Oct 7 08:25:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 28079 exited with signal = 9
Oct 7 08:27:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29286 exited with signal = 9
Oct 7 08:27:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29307 exited with signal = 9
Oct 7 08:27:56 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29793 exited with signal = 9
Oct 7 08:29:20 local/pri-4600 info bigd[3471]: reap_child: child process PID = 30851 exited with signal = 9
Oct 7 08:33:00 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1122 exited with signal = 9
Oct 7 08:33:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1299 exited with signal = 9
Oct 7 08:34:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2054 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2784 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2807 exited with signal = 9
Oct 7 08:35:35 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3015 exited with signal = 9
Oct 7 08:36:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3601 exited with signal = 9
¿Esto es normal? Si no, ¿qué podría estar causando que esto suceda?
Respuesta1
bigd es el demonio de monitoreo en BIG-IP, por lo que parece que un monitor que está en uso está fallando. Debería abrir un caso con soporte y cargar su qkview en ihealth.f5.com. Aquí hay una solución relacionada con ese mensaje de error:
https://support.f5.com/kb/en-us/solutions/public/17000/000/sol17092.html
Respuesta2
Este era un error conocido en el software BIG-IP 10.2.4 que estábamos ejecutando.
Desde el soporte F5:
... se encontró con un problema conocido rastreado internamente como: error ID539130 "bigd puede bloquearse mientras procesa SIGCHLD causando una falla en el latido del corazón de bigd y SIGABRT" -=Condición=- Monitores externos que se ejecutan durante mucho tiempo y mueren en la siguiente iteración del monitor, puede provocar que bigd falle y se bloquee, lo que provoca una interrupción temporal en el seguimiento del estado.
La solución fue actualizar el software con Hotfix-BIGIP-10.2.4-HF12-866.11-ENG
.