NGINX: トラフィックの急増によるディスク書き込みスパイクやワーカー不足のエラーにより 500 エラーが発生する

NGINX: トラフィックの急増によるディスク書き込みスパイクやワーカー不足のエラーにより 500 エラーが発生する

実稼働サーバーで発生している問題を診断しようとしています。NGINX をロード バランサーとして実行しているサーバーがあり、4 つのアプリケーション サーバー間でリクエストを分割しています。サイトをテストしているときに、1 日を通して少なくとも数回、数秒間だけ続く 500 エラーが発生します。

エラー ログとアクセス ログ、および New Relic とホスティング サービスのグラフを調べてみると、いくつか気づいた点があります...

1 日に数回、ロード バランサーのディスク書き込みが突然、大幅に増加します。これは、短期間でアクセス ログに書き込まれるリクエストが非常に多いことが原因であると確信しています (昨日は 300 MB を超え、そのほとんどが非常に短い期間に発生しました)。大量のリクエストがブロックされ、積み重なってから同時に吐き出されているかのようです。

また、時々、エラー ログに「768 ワーカー接続では不十分です...」というメッセージが表示されます。この制限を上げる必要があるだけだと思いますが、どの程度上げるか、または機能する最大値をどのように見つけるかはわかりません。

これら 2 つの問題が関連しているのか、またはどちらかがランダムな 500 エラーの原因になっているのかはわかりません。

さらなる診断に関する洞察やアドバイスをいただければ幸いです。

関連情報