Как диагностировать проблемы сбоев RabbitMQ в Ubuntu 16?
При запуске sudo service rabbitmq-server status
выдает следующее:
● rabbitmq-server.service - RabbitMQ Messaging Server
Loaded: loaded (/lib/systemd/system/rabbitmq-server.service; enabled; vendor preset: enabled)
Active: failed (Result: timeout) since Wed 2018-03-21 19:44:18 UTC; 19min ago
Process: 1100 ExecStartPost=/usr/lib/rabbitmq/bin/rabbitmq-server-wait (code=killed, signal=TERM)
Process: 1099 ExecStart=/usr/sbin/rabbitmq-server (code=killed, signal=TERM)
Main PID: 1099 (code=killed, signal=TERM)
подразумевая, что он рухнул или не запустился. Однако, когда я запускаю htop, я вижу десятки erlang и beam.smp
процессов, которые запускаются Rabbit.
Более того, когда я пытаюсь перезапустить Rabbit, sudo service rabbitmq-server restart
он зависает примерно на пять минут, а затем наконец возвращается с сообщением:
Job for rabbitmq-server.service failed because a timeout was exceeded. See "systemctl status rabbitmq-server.service" and "journalctl -xe" for details.
Когда я бегу, journalctl -xe
я вижу кучу сообщений типа:
Mar 21 20:07:48 server1 postfix/error[3719]: 280524B3A: to=<[email protected]>, orig_to=<root>, relay=none, delay=101268, delays=101268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspende
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2D046FAC: from=<>, size=3126, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2D8AD474F: from=<[email protected]>, size=751, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3712]: 2ED9D499A: to=<[email protected]>, orig_to=<root>, relay=none, delay=155868, delays=155868/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspende
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2EBCF3D40: from=<>, size=3128, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3706]: 2D8AD474F: to=<[email protected]>, orig_to=<root>, relay=none, delay=38268, delays=38268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended:
Mar 21 20:07:48 server1 postfix/error[3716]: 2D046FAC: to=<[email protected]>, relay=none, delay=76240, delays=76240/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to porta
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2C9DE3945: from=<>, size=3134, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/qmgr[1784]: 2AA2A48B3: from=<[email protected]>, size=751, nrcpt=1 (queue active)
Mar 21 20:07:48 server1 postfix/error[3717]: 2C9DE3945: to=<[email protected]>, relay=none, delay=399644, delays=399644/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to po
Mar 21 20:07:48 server1 postfix/error[3701]: 2EBCF3D40: to=<[email protected]>, relay=none, delay=181242, delays=181242/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended: connect to po
Mar 21 20:07:48 server1 postfix/error[3712]: 2AA2A48B3: to=<[email protected]>, orig_to=<root>, relay=none, delay=59268, delays=59268/0/0/0, dsn=4.4.1, status=deferred (delivery temporarily suspended:
Правильно ли я понимаю, что Rabbit пытается отправить кучу писем, блокируется и впоследствии зависает? Почему это происходит?
решение1
Я исправил это с помощью:
sudo killall rabbitmq-server
sudo killall beam.smp
sudo rm -Rf /var/lib/rabbitmq/mnesia/*
sudo service rabbitmq-server start
Мне также пришлось заново добавить свои пользовательские конфигурации, но в остальном это вернуло его в исходное состояние.
решение2
Это не похоже на "сбой"... скорее на корректное завершение работы из-за проблемы. По-видимому, служба отключилась по тайм-ауту. Я предполагаю, что это произошло из-за того, что она не смогла подключиться к удаленному серверу обмена сообщениями. "Письма", которые вы разместили, указывают на то, что она пыталась отправить уведомление по электронной почте о сбое... что, вероятно, также означает, что почтовый сервер Postfix не настроен на ретрансляцию сообщений за пределы ящика.