
Я пытаюсь диагностировать проблему, которая есть на наших производственных серверах. У нас есть сервер, на котором в качестве балансировщика нагрузки работает NGINX, который распределяет запросы между четырьмя серверами приложений. По крайней мере несколько раз в течение дня при тестировании сайта мы получаем 500 ошибок, которые длятся всего несколько секунд.
Просматривая журналы ошибок и журналы доступа, а также графики по new relic и нашему хостингу, я заметил несколько вещей...
Несколько раз в день происходят внезапные и огромные скачки записи на диск на балансировщике нагрузки. Я почти уверен, что это из-за того, что в журнал доступа за короткий промежуток времени записывается так много запросов (вчера было более 300 МБ, большинство из которых поступило за очень короткий промежуток времени)... Это почти как если бы куча запросов блокировалась, накапливалась и затем выплевывалась одновременно.
Также время от времени я получаю сообщение "768 рабочих подключений недостаточно..." в журналах ошибок. Я предполагаю, что мне просто нужно поднять этот лимит, но я не уверен, насколько, или как я могу найти максимум, который будет работать.
Я не уверен, связаны ли эти две проблемы, или какая-то из них является причиной наших случайных ошибок 500.
Любая информация или совет по дальнейшей диагностике будет высоко оценена!