nginx на некоторое время зависает при выполнении некоторых POST-запросов

nginx на некоторое время зависает при выполнении некоторых POST-запросов

У меня есть следующий стек, работающий в Ubuntu 18.08 и определенный как docker-compose:

  1. случайmariadb:10.3.20
  2. пользовательский экземпляр WordPress на основе wordpress:5.3.0-php7.2установленного ioncubeна нем
  3. пользовательский экземпляр nginx на основе nginx:1.13установленного nginx-amplify-agentна нем

Конфигурация nginx:

user  nginx;
worker_processes  auto;

error_log  /var/log/nginx/error.log warn;
pid        /var/run/nginx.pid;

events {
    worker_connections  10000;
}

http {
    include       /etc/nginx/mime.types;
    default_type  application/octet-stream;

    log_format  main  '$remote_addr - $remote_user [$time_local] "$request" '
                          '$status $body_bytes_sent "$http_referer" '
                          '"$http_user_agent" "$http_x_forwarded_for"';

    log_format  main_ext  '$remote_addr - $remote_user [$time_local] "$request" '
                          '$status $body_bytes_sent "$http_referer" '
                          '"$http_user_agent" "$http_x_forwarded_for" '
                          '"$host" sn="$server_name" '
                          'rt=$request_time '
                          'ua="$upstream_addr" us="$upstream_status" '
                          'ut="$upstream_response_time" ul="$upstream_response_length" '
                          'cs=$upstream_cache_status' ;

    access_log  /var/log/nginx/access.log  main_ext;
    error_log  /var/log/nginx/error.log warn;

    sendfile        on;
    #tcp_nopush     on;

    keepalive_timeout  65;

    gzip  on;

    include /etc/nginx/conf.d/*.conf;
}

сайт определяется следующим образом:

server {
        listen 80;
        listen [::]:80;

        server_name some.org www.some.org;

        location / {
                rewrite ^ https://$host$request_uri? permanent;
        }
}

server {
        listen 443 ssl http2;
        listen [::]:443 ssl http2;
        server_name some.org www.some.org;

        index index.php index.html index.htm;

        root /var/www/html;

        server_tokens off;

        ssl_certificate /etc/letsencrypt/live/some.org/fullchain.pem;
        ssl_certificate_key /etc/letsencrypt/live/some.org/privkey.pem;

        add_header X-Frame-Options "SAMEORIGIN" always;
        add_header X-XSS-Protection "1; mode=block" always;
        add_header X-Content-Type-Options "nosniff" always;
        add_header Referrer-Policy "no-referrer-when-downgrade" always;
        add_header Content-Security-Policy "default-src * data: 'unsafe-eval' 'unsafe-inline'" always;
        # add_header Strict-Transport-Security "max-age=31536000; includeSubDomains; preload" always;
        # enable strict transport security only if you understand the implications

        location / {
                proxy_connect_timeout 600;
                proxy_send_timeout    600;
                proxy_read_timeout    600;
                proxy_redirect        off;
                proxy_pass http://wordpress;

                proxy_set_header      X-Real-IP $remote_addr;
                proxy_set_header      X-Forwarded-Proto https;
                proxy_set_header      X-Forwarded-For $proxy_add_x_forwarded_for;
                proxy_set_header      Host $host;
        }

        location = /favicon.ico {
                log_not_found off; access_log off;
        }

        location = /robots.txt {
                log_not_found off; access_log off; allow all;
        }

        location ~* \.(css|js|gif|ico|jpeg|jpg|png)$ {
                expires max;
                log_not_found off;
        }
}

Весь стек работает как и ожидалось, если только 10-15 пользователей не зайдут на сайт и не попытаются выполнить действия. В этом случае некоторые запросы начинают зависать (обычно это тот же POST-запрос к какому-то компоненту), и через 3-4 минуты он освобождается без каких-либо ошибок, и пользователь может фактически увидеть результат этого. Во время зависания сайт становится неответственным из того же браузера (но из других все в порядке!). Как только запрос освобождается - сайт снова становится ответственным.

Логи тоже довольно странные:

  • Как только зависший/ожидающий запрос поступает на сервер, он отображается в журналах доступа nginx, но не в журналах WordPress.
  • После того, как запрос окончательно выпущен (т.е. обработан), он отображается во второй раз в журналах доступа nginx и в журналах WordPress, но время отличается.

Журналы доступа nginx:

62.96.39.243 - - [17/Jan/2020:10:56:41 +0000] "GET /something

78.43.40.52 - - [17/Jan/2020:10:56:41 +0000] "POST /ajax-bidsform.html?meth=post&yid=d7f9f1a1a0bf HTTP/2.0" 200 208 "https://some.org/xchange_XRP_to_SBERRUB/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36" "-"

78.43.40.52 - - [17/Jan/2020:10:56:41 +0000] "GET /something

вордпресс:

134.19.130.91 - - [17/Jan/2020:10:56:40 +0000] "GET /something

78.43.40.52 - - [17/Jan/2020:10:50:07 +0000] "POST /ajax-bidsform.html?meth=post&yid=d7f9f1a1a0bf HTTP/1.0" 200 559 "https://some.org/xchange_XRP_to_SBERRUB/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36"

62.96.39.243 - - [17/Jan/2020:10:56:41 +0000] "GET /something

Как вы можете видеть, зависание POST /ajax-bidsform.html...имеет время 10:56 в логах nginx, но 10:50 в wordpress - и это как раз то время, когда этот запрос был сделан клиентом. Насколько я понимаю, это означает, что запрос застрял где-то на уровне nginx почти на 6 минут, пока он фактически не был передан wordpress. Как вы можете видеть, у меня нет директив защиты ddos ​​nginx.

Также некоторые замечания с моей стороны: во время зависших запросов нет никаких долгосрочных пиков ЦП или ОЗУ, так что это, скорее всего, не связано с проблемами оборудования. Я также думал, что это как-то связано с зависающим скриптом (т. е. ajax-bidsform.html), но это начало происходить только тогда, когда мы мигрировали в облачный экземпляр digital-ocean с виртуального хостинга (где этого никогда не было), так что я думаю, что это проблема конфигурации. Хронология запросов в журналах также как бы это доказывает.

До сих пор я пытался:

  1. Увеличить worker_connectionsдо 10000
  2. Увеличьте количество экземпляров nginx (не хоста) net.core.somaxconnдо 1024

Но проблема все еще актуальна. Любые идеи и мысли будут очень признательны!

решение1

10:56 в логах nginx, но 10:50 в wordpress

Я бы интерпретировал это как получение wordpress запроса в 10:50 и возврат результата обратно в nginx в 10:56. Чтобы знать наверняка, вы можете добавить upstream_response_timeto log_formatв nginx. СмотритеИспользование ведения журнала NGINX для мониторинга производительности приложений.

Связанный контент