Atualmente estou enfrentando um problema em que uma de nossas VMs Proxmox, rodando no Debian 11, sofre sobrecargas de CPU muito repentinas. Isso já aconteceu na semana passada e hoje novamente. Quando isso acontece, o servidor não responde completamente. Não podemos nem acessá-lo através do console Proxmox, pois ele não aceita nenhuma entrada. Esta é a aparência do gráfico da CPU (média):
O uso de memória, rede ou disco não apresenta picos repentinos quando isso acontece. É apenas a CPU atingindo o máximo. A VM possui dois núcleos virtuais, então suponho que o problema esteja em um aplicativo de núcleo único.
A VM é usada para vários projetos de clientes como ambiente de teste. Existem vários aplicativos em execução, incluindo PostgreSQL, Node.js e PHP. Temos um agente New Relic em execução na máquina e verificamos o histórico do processo:
Como você pode ver, alguns aplicativos Node.js parecem ser os culpados. O processo afetado não mostra nenhum detalhe. Agora a questão é: como diagnosticamos isso? Existem vários aplicativos Node.js em execução por meio do PM2 na máquina. Como não podemos acessar o console Proxmox ou SSH na máquina quando isso acontece, não podemos verificar a lista de processos PM2 exatamente quando isso acontece. Verificamos vários logs /var/log
e não conseguimos encontrar nada relacionado a isso.
Alguma ideia?