NGINX:由於流量突然激增導致磁碟寫入峰值和/或沒有足夠的工作人員錯誤,導致 500 個錯誤

NGINX:由於流量突然激增導致磁碟寫入峰值和/或沒有足夠的工作人員錯誤,導致 500 個錯誤

我一直在嘗試診斷生產伺服器上的問題。我們有一台運行 NGINX 的伺服器作為負載平衡器,它在四個應用程式伺服器之間分配請求。在一天中測試網站時,我們至少有幾次收到 500 個僅持續幾秒鐘的錯誤。

查看錯誤日誌和訪問日誌,以及新遺跡和我們的託管服務的圖表,我注意到了一些事情...

負載平衡器上的磁碟寫入每天都會出現幾次突然且大幅的跳躍。我很確定這是由於短時間內有太多請求寫入訪問日誌(昨天超過 300 MB,其中大部分是在很短的時間內發出的)...幾乎就像如果一堆請求被阻塞、堆積起來然後同時吐出。

另外,偶爾我會在錯誤日誌中收到「768 個工作連線不夠...」的訊息。我猜我只需要提高這個限制,但我不確定要提高多少,或者如何找到可行的最大值。

我不確定這兩個問題是否有關聯,或者其中一個是否導致了我們的隨機 500 錯誤。

任何有關進一步診斷的見解或建議將不勝感激!

相關內容