
Estou tentando diagnosticar um problema que temos em nossos servidores de produção. Temos um servidor executando o NGINX como balanceador de carga que divide as solicitações entre quatro servidores de aplicativos. Pelo menos algumas vezes ao longo do dia, enquanto testamos o site, recebemos 500 erros que duram apenas alguns segundos.
Examinando os logs de erros e de acesso, bem como os gráficos da nova relíquia e do nosso serviço de hospedagem, notei algumas coisas...
Algumas vezes por dia, ocorrem saltos repentinos e massivos na gravação do disco no balanceador de carga. Tenho quase certeza de que isso se deve a tantas solicitações gravadas no log de acesso em um curto período de tempo (ontem eram mais de 300 MB, a maioria delas em um período muito curto de tempo)... É quase tão se um monte de solicitações estão sendo bloqueadas, empilhadas e cuspidas simultaneamente.
Além disso, de vez em quando recebo a mensagem "768 conexões de trabalho não são suficientes..." nos logs de erros. Acho que só preciso aumentar esse limite, mas não tenho certeza de quanto ou como posso encontrar o máximo que funcionará.
Não tenho certeza se esses dois problemas estão relacionados ou se algum deles está causando nossos 500 erros aleatórios.
Qualquer visão ou conselho sobre diagnóstico adicional seria muito apreciado!