
Ich habe versucht, ein Problem auf unseren Produktionsservern zu diagnostizieren. Wir haben einen Server, auf dem NGINX als Lastenausgleich läuft, der Anfragen auf vier Anwendungsserver aufteilt. Beim Testen der Site erhalten wir mindestens ein paar Mal am Tag 500 Fehler, die nur ein paar Sekunden andauern.
Beim Durchsehen der Fehlerprotokolle und Zugriffsprotokolle sowie der Diagramme zu New Relic und unserem Hosting-Dienst sind mir einige Dinge aufgefallen …
Ein paar Mal am Tag kommt es zu plötzlichen und massiven Sprüngen bei den Schreibvorgängen auf der Festplatte des Load Balancers. Ich bin mir ziemlich sicher, dass dies daran liegt, dass in kurzer Zeit so viele Anfragen in das Zugriffsprotokoll geschrieben werden (gestern waren es über 300 MB, die meisten davon kamen in sehr kurzer Zeit)... Es ist fast so, als würden viele Anfragen blockiert, aufgestapelt und dann gleichzeitig ausgespuckt.
Außerdem erhalte ich ab und zu die Meldung „768 Worker-Verbindungen reichen nicht aus …“ in den Fehlerprotokollen. Ich schätze, ich muss dieses Limit einfach erhöhen, bin mir aber nicht sicher, um wie viel oder wie ich das Maximum finden kann, das funktioniert.
Ich bin nicht sicher, ob diese beiden Probleme zusammenhängen oder ob eines davon unsere zufälligen 500-Fehler verursacht.
Ich wäre für alle Erkenntnisse und Ratschläge zur weiteren Diagnose sehr dankbar!