Я использую Ubuntu 16.04.3 LTS box от Linode, который очень недоиспользуется, но uptime monitor сообщил мне, что мои сайты были недоступны почти час, прежде чем они снова заработали. Я проверил и обнаружил, что сервер перезагрузился, и тогда сайт восстановился. Получил письмо от Linode, что Host initiated restart
. Настройка оповещений внутри Linode о высоком пороге использования также не сработала.
Я пытаюсь выяснить, что произошло. Я видел проблему на другом Ubuntu, работающем с Linode, на котором поддержка Linode сказала мне, что что-то вызвало сбой Linode, и Lassie (их сторожевой пес) перезагрузил его, что, похоже, и произошло здесь.
Я проверил оба /var/log/auth.log
&, /var/log/syslog
но они просто, похоже, не имеют записей в журнале, между 18:03
которыми находится окно простоя. Никакого сообщения, выделяющегося как такового. На моем сервере 18:57
нет журнала./var/log/messages
Содержание /var/log/syslog
:
Feb 23 18:03:04 localhost alertyo-engine[6279]: Un-Setting flag
Feb 23 18:03:04 localhost alertyo-engine[6279]: Alloc = 1 MiB#011TotalAlloc = 2470 MiB#011HeapAlloc = 1 MiB#011Sys = 10 MiB#011NumGC = 10856
Feb 23 18:57:14 localhost rsyslogd: [origin software="rsyslogd" swVersion="8.16.0" x-pid="3304" x-info="http://www.rsyslog.com"] start
Feb 23 18:57:14 localhost rsyslogd-2222: command 'KLogPermitNonKernelFacility' is currently not permitted - did you already set it via a RainerScript command (v6+ config)? [v8.16.0 try http://www.rsyslog.com/e/2222 ]
Feb 23 18:57:14 localhost rsyslogd: rsyslogd's groupid changed to 108
Feb 23 18:57:14 localhost rsyslogd: rsyslogd's userid changed to 104
Feb 23 18:57:14 localhost systemd[1]: Mounted FUSE Control File System.
Содержание /var/log/auth.log
:
Feb 23 18:03:01 localhost CRON[29814]: pam_unix(cron:session): session closed for user root
Feb 23 18:03:01 localhost CRON[29813]: pam_unix(cron:session): session closed for user ashfame
Feb 23 18:57:14 localhost CRON[3301]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:57:15 localhost systemd-logind[3312]: Watching system buttons on /dev/input/event0 (Power Button)
Feb 23 18:57:15 localhost systemd-logind[3312]: New seat seat0.
Feb 23 18:57:15 localhost sshd[3449]: Server listening on 0.0.0.0 port 22.
Feb 23 18:57:15 localhost sshd[3449]: Server listening on :: port 22.
Feb 23 18:57:16 localhost CRON[3301]: pam_unix(cron:session): session closed for user ashfame
Feb 23 18:58:01 localhost CRON[3681]: pam_unix(cron:session): session opened for user root by (uid=0)
Feb 23 18:58:01 localhost CRON[3680]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:58:01 localhost CRON[3681]: pam_unix(cron:session): session closed for user root
Feb 23 18:59:01 localhost CRON[3787]: pam_unix(cron:session): session opened for user root by (uid=0)
Feb 23 18:59:01 localhost CRON[3786]: pam_unix(cron:session): session opened for user ashfame by (uid=0)
Feb 23 18:59:01 localhost CRON[3787]: pam_unix(cron:session): session closed for user root
Feb 23 18:59:01 localhost CRON[3786]: pam_unix(cron:session): session closed for user ashfame
Что еще я могу проверить? Если бы это была повторяющаяся проблема, я, вероятно, мог бы настроить больше логов, чтобы выяснить, что идет не так, но, как и в прошлый раз (который был на другом ящике), я боюсь, что это происходит раз в несколько месяцев. Как мне выяснить, что произошло, а не готовиться к тому, когда это повторится?
решение1
Только что стало известно, что причиной стал сбой питания в центре обработки данных компании Linode в Фермонте.
Итак, если в журналах сервера вы не видите ничего, что указывало бы на такую проблему, одной из причин может быть то, что сервер был просто выключен, и поэтому в журналах ничего не отобразилось (я помню, что читал что-то, что некоторые системы могут это делать).
Всегда полезно проверить страницу статуса вашего провайдера и поискать в Twitter :)