O problema
Tenho um servidor que atinge pm.max_children (200) sem aumento no uso da CPU. Nenhum tráfego de rede (MB de saída/MB de entrada), mas um número extremamente alto de soquetes alocados que não são fechados.
CPU: 16 núcleos RAM: 64 GB
Fotos do meu sistema de monitor Prometheus.
Tráfego de rede, veja o buraco
Nenhum soquete chega ao ponto TCP_tw, eles ficam presos no TCP_alloc
Grande aumento no uso de soquetes
Para mitigar este problema, tenho que reiniciar manualmente o php-fpm. Caso contrário, ficará completamente preso a novas conexões.
Uso da CPU, cai muito
Atualizar
Suspeito que isso seja causado pelo bloqueio de tabelas no banco de dados por um longo período de tempo, o que faz com que todas as conexões que tentam acessar esses dados esperem e acabem ficando presas em uma grande pilha de conexões.
Atualmente estou configurando um exportador Mysql para ver se consigo encontrar mais.