
wir verfügen über einen Maildienst mit folgenden Angaben:
1-Centos 6.4
2:Postfix 2.6.6
3:roundcube 0.8
4:dovecot 2.0.9.7
5:mysql-server 5.1.71
alles ist ok, aber in der Spitzennutzungszeit steigt die Zahl der ruhenden Roundcube-Verbindungen in weniger als 10 Minuten von 1 oder 2 oder 3 auf 270 und die Zahl der von Apache geöffneten Dateien (gemessen mit LSof) steigt in dieser Spitzenzeit von 4000 auf 20000.
dies ist die Apache-Konfiguration: (Apache arbeitet im Prefork-Modus)
PidFile run/httpd.pid
Timeout 60
KeepAlive On
MaxKeepAliveRequests 100
<IfModule prefork.c>
StartServers 8
MinSpareServers 5
MaxSpareServers 20
ServerLimit 256
MaxClients 256
MaxRequestsPerChild 4000
</IfModule>
TraceEnable off
LimitRequestLine 1024
LimitRequestFields 100
LimitRequestFieldsize 1024
LimitRequestBody 10241024
und hier ist die MySQL-Konfiguration:
secure_auth=1
local_infile=0
max_connections = 600
max_allowed_packet = 16M
key_buffer =256M
wait_timeout=240
interactive_timeout=180
connect_timeout=10
innodb_buffer_pool_size=2G
Wenn die Anzahl der ruhenden Verbindungen des Roundcubes auf >100 ansteigt, fallen fast alle Dienste (Web, E-Mail, MySQL) aus …
Danke für jeden Vorschlag.
Antwort1
Die Antwort ist:
Ich habe die Apache-Option „max_client“ bearbeitet, um den Wert von 256 --> 50 zu senken. Warum!?
aufgrund eines (noch) unbekannten Problems beanspruchen alle vorgeforkten Apache-Prozesse die CPU-Auslastung zu etwa 100 % (100 % Auslastung des Kerns, der den vorgeforkten Apache-Prozess für einige Momente ausführt)
Das System stürzt ab, weil das System über 64 CPU-Kerne verfügt, wenn alle 256 Prozesse von Apache 100 % der CPU-Auslastung nutzen, fallen das System und die Dienste aus.
das Problem besteht immer noch, aber bei den Diensten gibt es keine Probleme. Ich denke, das Problem hängt mit Netzwerkangriffen zusammen (unsere Überwachungstools melden viele Angriffe pro Tag), die manchmal zu Problemen wie Ressourcensperren oder etwas anderem führen
Danke für alle Vorschläge.
Antwort2
Jetzt
Nach etwa 5 Jahren
Das Problem wurde innerhalb weniger Tage erkannt und gelöst.
Es war so kompliziert für einen Junior-Systemadministrator wie mich ;)
Es gab ein Problem im GFS2-Cluster-Dateisystem, das mein Teamkollege auf iSCSI LUN vorbereitet hatte, und dieses Problem führte zu verschiedenen Problemen und Problemen in Dovecot und Roundcube (und dann Apache).
zu Ihrer Information: Als ich auf den Parameter %wa im obersten Befehl geachtet habe (er lag bei etwa 90 %), dachte ich (vielleicht), dass es ein Problem auf Dateisystemebene gibt.
Dann habe ich beschlossen, alle Daten auf ein neues Cluster-Dateisystem (ocfs2) zu übertragen, da GFS veraltet war!
Zuerst werden alle Daten in das neue Cluster-Dateisystem (auf OCF2) verschoben. Anschließend wird das gesamte System basierend auf Pacemake HaProxy auf Debian Wheezy neu gestaltet.