NGINX: pico de escritura en disco y/o error de trabajadores insuficientes debido a un aumento repentino en el tráfico que causa errores 500

NGINX: pico de escritura en disco y/o error de trabajadores insuficientes debido a un aumento repentino en el tráfico que causa errores 500

He estado intentando diagnosticar un problema que tenemos en nuestros servidores de producción. Tenemos un servidor que ejecuta NGINX como equilibrador de carga que divide las solicitudes entre cuatro servidores de aplicaciones. Al menos algunas veces durante el día, mientras probamos el sitio, obtenemos 500 errores que solo duran unos segundos.

Al revisar los registros de errores y de acceso, así como los gráficos sobre la nueva reliquia y nuestro servicio de alojamiento, he notado algunas cosas...

Algunas veces al día se producen saltos repentinos y masivos en la escritura en disco en el equilibrador de carga. Estoy bastante seguro de que esto se debe a que se escribieron tantas solicitudes en el registro de acceso en un corto período de tiempo (ayer eran más de 300 MB, la mayoría de los cuales llegaron en un período de tiempo muy corto)... Es casi tan si se bloquean un montón de solicitudes, se acumulan y luego se escupen simultáneamente.

Además, de vez en cuando aparece el mensaje "768 conexiones de trabajo no es suficiente..." en los registros de errores. Supongo que solo necesito aumentar este límite, pero no estoy seguro de cuánto o cómo puedo encontrar el máximo que funcionará.

No estoy seguro de si estos dos problemas están relacionados o si alguno de ellos está causando nuestros errores 500 aleatorios.

¡Cualquier idea o consejo sobre un diagnóstico adicional sería muy apreciado!

información relacionada