O que acontece se a conexão dbus falhar?

O que acontece se a conexão dbus falhar?

Estou tentando encontrar uma causa raiz para o servidor travado.

Descobri que um processo travou com o ID de processo 14900 e a seguir está a mensagem de login. Nenhum core dump é salvo porque não está relacionado a nenhum pacote (ProcessUnpackaged=no).

May 25 15:31:41 myserver abrt[15298]: Saved core dump of pid 14900 (/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release) to /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900 (11644928 bytes)
May 25 15:31:52 myserver abrtd: Sending an email...
May 25 15:31:52 myserver abrtd: Email was sent to: root@localhost
May 25 15:31:52 myserver abrtd: Duplicate: UUID
May 25 15:31:52 myserver abrtd: DUP_OF_DIR: /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Problem directory is a duplicate of /var/spool/abrt/ccpp-2016-05-17-10:25:46-48111
May 25 15:31:52 myserver abrtd: Deleting problem directory ccpp-2016-05-25-15:31:06-12824 (dup of ccpp-2016-05-17-10:25:46-48111)
May 25 15:31:52 myserver abrtd: Failed to open connection to "system" message bus: Failed to connect to socket /var/run/dbus/system_bus_socket: Connection refused
May 25 15:31:52 myserver abrtd: Directory 'ccpp-2016-05-25-15:31:41-14900' creation detected
May 25 15:31:52 myserver abrtd: Executable '/NFS_share/work_dir/freac/FREAC.Linux-2.6-x86_64-Release' doesn't belong to any package
May 25 15:31:52 myserver abrtd: 'post-create' on '/var/spool/abrt/ccpp-2016-05-25-15:31:41-14900' exited with 1
May 25 15:31:52 myserver abrtd: Corrupted or bad directory /var/spool/abrt/ccpp-2016-05-25-15:31:41-14900, deleting

Há outro processo 14939 que possivelmente é o processo filho de 14900 travado e isso causou um aumento na carga e eventualmente travou o servidor.

May 25 15:33:44 myserver ntpd[4430]: synchronized to 10.171.8.5, stratum 3
May 25 15:35:10 myserver kernel: INFO: task FREAC.Linux-2.6:14939 blocked for more than 120 seconds.
May 25 15:35:10 myserver kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
May 25 15:35:10 myserver kernel: FREAC.Linux-2 D 00000000ffffffff     0 14939  14658 0x10000084
May 25 15:35:10 myserver kernel: ffff8835d4ebd988 0000000000000046 ffff8835d4ebd908 ffffffffa0844e00
May 25 15:35:10 myserver kernel: ffff8828a4b61440 ffff881fedd4a540 ffff8835d4000001 ffffffff81129607
May 25 15:35:10 myserver kernel: ffff883f4c39baf8 ffff8835d4ebdfd8 000000000000fb88 ffff883f4c39baf8
May 25 15:35:10 myserver kernel: Call Trace:

Houve um problema com o dbus que não havíamos corrigido naquele momento, mas poderia ser o motivo da falha do processo filho 14939. Não sei exatamente qual é o propósito do dbus.

Não consegui obter detalhes sobre o processo porque o servidor travou devido ao aumento da carga e tivemos que reiniciá-lo. No entanto, corrigimos o problema do dbus após a reinicialização.

EDITAR1:

Algum entendimento recente após uma breve olhada neste link:https://dbus.freedesktop.org/doc/dbus-tutorial.html

dbus é necessário para comunicação entre processos (IPC) (significa comunicação com outro processo para enviar mensagens e nada a ver com chamadas pai ou filho).

Há uma declaração:

Os daemons de todo o sistema e por usuário são separados. O IPC normal dentro da sessão não envolve o processo do barramento de mensagens em todo o sistema e vice-versa.

Então, o que significa vice-versa aqui - O IPC não requer processo dbus (em todo o sistema ou usuário)?

Se isso estiver certo, então a comunicação entre 14939 e 14900 não requer dbus, pois eles estão dentro da sessão? Ou pode não ser, pode ser que o init tenha herdado um ou ambos os processos e, portanto, o dbus seja necessário.

Então, outra pergunta me incomoda - na verdade, o problema do dbus começou após uma reinicialização recente daquele servidor e depois de alguns dias o servidor travou. Se o dbus é necessário para que todos esses processos sejam executados com êxito, por que nenhum processo foi interrompido nesses poucos dias após a reinicialização?

Por favor, tente responder à pergunta real sobre o dbus, se o restante da pergunta for muito amplo.

Obrigado!

EDITAR 2:

E também isto:Por que preciso do dbus?esclarece algumas coisas sobre o dbus.

informação relacionada