Estoy intentando encontrar la causa raíz del servidor colgado.
Descubrí que un proceso falló con el ID de proceso 14900 y el siguiente es el mensaje de inicio de sesión. No se guarda ningún volcado de núcleo ya que no está relacionado con ningún paquete (ProcessUnpackged=no).
May 25 15:31:41 myserver abrt[15298]: Saved core dump of pid 14900 (/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release) to /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900 (11644928 bytes)
May 25 15:31:52 myserver abrtd: Sending an email...
May 25 15:31:52 myserver abrtd: Email was sent to: root@localhost
May 25 15:31:52 myserver abrtd: Duplicate: UUID
May 25 15:31:52 myserver abrtd: DUP_OF_DIR: /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Problem directory is a duplicate of /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Deleting problem directory ccpp-2016-05-25-15:31:06-12824 (dup of ccpp-2016-05-17-10:25:46-48111)
May 25 15:31:52 myserver abrtd: Failed to open connection to "system" message bus: Failed to connect to socket /var/run/dbus/system_bus_socket: Connection refused
May 25 15:31:52 myserver abrtd: Directory 'ccpp-2016-05-25-15:31:41-14900' creation detected
May 25 15:31:52 myserver abrtd: Executable '/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release' doesn't belong to any package
May 25 15:31:52 myserver abrtd: 'post-create' on '/var/spool/abrt/ccpp-2016-05-25-15:31:41-14900' exited with 1
May 25 15:31:52 myserver abrtd: Corrupted or bad directory /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900, deleting
Hay otro proceso 14939 que posiblemente sea un proceso hijo de 14900 colgado y esto provocó un aumento en la carga y finalmente se bloqueó el servidor.
May 25 15:33:44 myserver ntpd[4430]: synchronized to 10.171.8.5, stratum 3
May 25 15:35:10 myserver kernel: INFO: task FREAC.Linux-2.6:14939 blocked for more than 120 seconds.
May 25 15:35:10 myserver kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 25 15:35:10 myserver kernel: FREAC.Linux-2 D 00000000ffffffff 0 14939 14658 0x10000084
May 25 15:35:10 myserver kernel: ffff8835d4ebd988 0000000000000046 ffff8835d4ebd908 ffffffffa0844e00
May 25 15:35:10 myserver kernel: ffff8828a4b61440 ffff881fedd4a540 ffff8835d4000001 ffffffff81129607
May 25 15:35:10 myserver kernel: ffff883f4c39baf8 ffff8835d4ebdfd8 000000000000fb88 ffff883f4c39baf8
May 25 15:35:10 myserver kernel: Call Trace:
Hubo un problema con dbus que no habíamos solucionado en ese momento, pero ¿podría ser el motivo del fallo del proceso secundario 14939? No sé exactamente cuál es el propósito de dbus.
No pude obtener ningún detalle sobre el proceso ya que el servidor se bloqueó debido al aumento de la carga y tuvimos que reiniciarlo. Sin embargo, solucionamos el problema de dbus después del reinicio.
EDITAR1:
Algunos entendimientos recientes después de una breve mirada a este enlace:https://dbus.freedesktop.org/doc/dbus-tutorial.html
Se requiere dbus para la comunicación entre procesos (IPC) (significa comunicación con otro proceso para enviar mensajes y nada que ver con las llamadas de padres o hijos).
Hay una declaración:
Los demonios de todo el sistema y por usuario están separados. La IPC normal dentro de la sesión no implica el proceso del bus de mensajes de todo el sistema y viceversa.
Entonces, ¿qué significa aquí viceversa? ¿El IPC no dentro de la sesión requiere un proceso dbus (en todo el sistema o en el usuario)?
Si esto es correcto, ¿entonces la comunicación entre 14939 y 14900 no requiere dbus en absoluto ya que están dentro de la sesión? O puede que no, puede que init haya heredado uno o ambos procesos y, por lo tanto, se requiere dbus.
Luego me molesta otra pregunta: en realidad, el problema de dbus comenzó después de un reinicio reciente de ese servidor y después de unos días el servidor se bloqueó. Si se requiere dbus para que todos estos procesos se ejecuten correctamente, ¿por qué no hubo ningún proceso bloqueado en esos pocos días después del reinicio?
Por favor, intente responder la pregunta real sobre dbus, si el resto de la pregunta es demasiado amplia.
¡Gracias!
EDITAR 2:
Y también esto:¿Por qué necesito dbus?Aclara algunas cosas sobre dbus.