Como ser notificado sobre problemas de RAID do mdadm?

Question 1

O que poderia fazer com que os discos ficassem repentinamente fora de sincronia?

Pode ser qualquer falha de hardware ou software no caminho entre os pratos da unidade e os dados na memória. O que pode significar, mas não está limitado a: cabeçote da unidade, controlador da unidade, cabeçote de conexão no cabo, o próprio cabo (quebra de fio interno), a porta à qual o cabo se conecta na unidade, a porta na placa-mãe ou placa filha , o chip controlador na placa-mãe ou placa filha, ou até mesmo uma falha no software (em algum lugar).

História verídica: uma vez tive um espelho RAID que estava instável, deixando cair uma unidade sem motivo. As unidades funcionaram bem, os pratos estavam limpos (as repetições dos passes SMART não resultaram em nada) e tudo funcionou bem - até que ele descascasse novamente e novamente. Substituí o cabo SATA de US$ 3 e os problemasimediatamentese afastou. Moral da história: MUITO pode dar errado e você nem sempre pode presumir que "está tudo bem" se não verificar todos os componentes no caminho dos dados.

Por que não fui notificado por e-mail?

A notificação por e-mail ocorre apenas quando (a) monitora ativamente a matriz ou (b) quando a matriz é interrogada.

Meu conselho é: você precisa que o mdadm monitore ativamente a matriz de unidades como um processo. Isso pode ser feito com algo semelhante (mas não exatamente igual):

mdadm --monitor --scan --syslog

Você precisará ajustar a linha acima para sua instalação específica.

Por que o erro não foi registrado corretamente no syslog antes de interromper o sistema? Será que o sistema tentou fazer logon no syslog, mas o fez depois de interromper o daemon do syslog? Se sim, o que posso fazer para evitar isso?

Pode ter havido vários problemas que fizeram com que o registro fosse interrompido.

Primeiro, há toda a questão de como o syslog funciona em geral; e embora muitos anos tenham sido necessários para torná-lo robusto e confiável, há certos casos extremos em que os dados podem não chegar ao disco. Este é um problema de design bem conhecido e que foi abordado ativamente com o gerenciamento de serviços no estilo de supervisão (também conhecido como daemontools e similares). A solução era ignorar completamente o syslog e gravar a saída em um logger que tivesse um descritor de arquivo aberto o tempo todo, para que nada fosse descartado e o logger despejasse a saída no disco o mais rápido possível; embora não seja uma solução 100% eficaz, ela melhora significativamente as chances de eventos gravados na unidade antes que o kernel entre em pânico ou seja desligado.

Em segundo lugar, existe a possibilidade de o kernel ter entrado em pânico total ou de ter ocorrido algum outro evento que forçaria a máquina a encurralar. Até mesmo hardware defeituoso pode causar um problema - já vi máquinas com fontes de alimentação de baixa potência causarem desligamentos espontâneos no Windows 8. A substituição da fonte de alimentação corrigiu o problema de desligamento permanentemente. Obviamente,nadao que o kernel pode fazer irá proteger contra uma máquina que simplesmente decidiu "Já estou farto disso" e começou a reiniciar.

O que posso fazer para descobrir o que aconteceu? Ou, se não há como descobrir o que aconteceu agora, como posso melhorar o registro e as notificações para que da próxima vez eu possa fazer uma autópsia melhor?

Existem várias abordagens:

Coloque o log em uma partição separada. Embora isso não seja uma garantia de que você obterá logs intactos, ajuda a isolar problemas do sistema de arquivos, como disco cheio, não é possível gravar, corrupção que causa uma remontagem para somente leitura, etc. casos específicos.
Observe o registro remoto de informações vitais do sistema. Novamente, isso não é uma garantia, mas ajudará se o último pacote puder "sair pela porta" antes que ocorra uma reinicialização, e esse pacote tiver pistas críticas sobre o motivo da reinicialização.
Para serviços críticos específicos, considere substituir a saída do syslog por outra coisa, como o registro em estilo de supervisão, onde um registrador dedicado intercepta a saída e a grava no disco o mais rápido possível. Isso aumenta a confiabilidade da saída que chega ao armazenamento. Com um pouco de trabalho, ele pode coexistir lado a lado com outros arranjos de gerenciamento de serviços.

Answer

O que poderia fazer com que os discos ficassem repentinamente fora de sincronia?

Pode ser qualquer falha de hardware ou software no caminho entre os pratos da unidade e os dados na memória. O que pode significar, mas não está limitado a: cabeçote da unidade, controlador da unidade, cabeçote de conexão no cabo, o próprio cabo (quebra de fio interno), a porta à qual o cabo se conecta na unidade, a porta na placa-mãe ou placa filha , o chip controlador na placa-mãe ou placa filha, ou até mesmo uma falha no software (em algum lugar).

História verídica: uma vez tive um espelho RAID que estava instável, deixando cair uma unidade sem motivo. As unidades funcionaram bem, os pratos estavam limpos (as repetições dos passes SMART não resultaram em nada) e tudo funcionou bem - até que ele descascasse novamente e novamente. Substituí o cabo SATA de US$ 3 e os problemasimediatamentese afastou. Moral da história: MUITO pode dar errado e você nem sempre pode presumir que "está tudo bem" se não verificar todos os componentes no caminho dos dados.

Por que não fui notificado por e-mail?

A notificação por e-mail ocorre apenas quando (a) monitora ativamente a matriz ou (b) quando a matriz é interrogada.

Meu conselho é: você precisa que o mdadm monitore ativamente a matriz de unidades como um processo. Isso pode ser feito com algo semelhante (mas não exatamente igual):

mdadm --monitor --scan --syslog

Você precisará ajustar a linha acima para sua instalação específica.

Por que o erro não foi registrado corretamente no syslog antes de interromper o sistema? Será que o sistema tentou fazer logon no syslog, mas o fez depois de interromper o daemon do syslog? Se sim, o que posso fazer para evitar isso?

Pode ter havido vários problemas que fizeram com que o registro fosse interrompido.

Primeiro, há toda a questão de como o syslog funciona em geral; e embora muitos anos tenham sido necessários para torná-lo robusto e confiável, há certos casos extremos em que os dados podem não chegar ao disco. Este é um problema de design bem conhecido e que foi abordado ativamente com o gerenciamento de serviços no estilo de supervisão (também conhecido como daemontools e similares). A solução era ignorar completamente o syslog e gravar a saída em um logger que tivesse um descritor de arquivo aberto o tempo todo, para que nada fosse descartado e o logger despejasse a saída no disco o mais rápido possível; embora não seja uma solução 100% eficaz, ela melhora significativamente as chances de eventos gravados na unidade antes que o kernel entre em pânico ou seja desligado.

Em segundo lugar, existe a possibilidade de o kernel ter entrado em pânico total ou de ter ocorrido algum outro evento que forçaria a máquina a encurralar. Até mesmo hardware defeituoso pode causar um problema - já vi máquinas com fontes de alimentação de baixa potência causarem desligamentos espontâneos no Windows 8. A substituição da fonte de alimentação corrigiu o problema de desligamento permanentemente. Obviamente,nadao que o kernel pode fazer irá proteger contra uma máquina que simplesmente decidiu "Já estou farto disso" e começou a reiniciar.

O que posso fazer para descobrir o que aconteceu? Ou, se não há como descobrir o que aconteceu agora, como posso melhorar o registro e as notificações para que da próxima vez eu possa fazer uma autópsia melhor?

Existem várias abordagens:

Coloque o log em uma partição separada. Embora isso não seja uma garantia de que você obterá logs intactos, ajuda a isolar problemas do sistema de arquivos, como disco cheio, não é possível gravar, corrupção que causa uma remontagem para somente leitura, etc. casos específicos.
Observe o registro remoto de informações vitais do sistema. Novamente, isso não é uma garantia, mas ajudará se o último pacote puder "sair pela porta" antes que ocorra uma reinicialização, e esse pacote tiver pistas críticas sobre o motivo da reinicialização.
Para serviços críticos específicos, considere substituir a saída do syslog por outra coisa, como o registro em estilo de supervisão, onde um registrador dedicado intercepta a saída e a grava no disco o mais rápido possível. Isso aumenta a confiabilidade da saída que chega ao armazenamento. Com um pouco de trabalho, ele pode coexistir lado a lado com outros arranjos de gerenciamento de serviços.

Question 2

O que poderia fazer com que os discos ficassem repentinamente fora de sincronia?

Falha na unidade, falha no controlador, alguma outra falha de hardware. Algum problema de software obscuro.

Por que não fui notificado por e-mail?

O Ubuntu tem um cronjob /etc/cron.d/mdadmque resulta na verificação dos volumes RAID uma vez por dia às 00h57. Se o seu sistema não estava com problemas ou já havia falhado, não havia como enviar uma mensagem.

Por que o erro não foi registrado corretamente no syslog antes de interromper o sistema?

Bem, se as unidades estiverem falhando, não faz sentido tentar gravar nelas, pois qualquer gravação adicional poderá destruir o que resta. Sem saber a natureza exata da sua falha, pode ser que o seu volume ou sistema de arquivos tenha se tornado somente leitura. Por padrão, o Ubuntu está configurado para mudar para um sistema de arquivos somente leitura se houver erros no volume raiz.

como posso melhorar o registro e as notificações para que da próxima vez eu possa fazer uma autópsia melhor?

Configure o log em um host syslog remoto. Dessa forma, uma falha de armazenamento não significa que nada possa ser registrado.

Answer

O que poderia fazer com que os discos ficassem repentinamente fora de sincronia?

Falha na unidade, falha no controlador, alguma outra falha de hardware. Algum problema de software obscuro.

Por que não fui notificado por e-mail?

O Ubuntu tem um cronjob /etc/cron.d/mdadmque resulta na verificação dos volumes RAID uma vez por dia às 00h57. Se o seu sistema não estava com problemas ou já havia falhado, não havia como enviar uma mensagem.

Por que o erro não foi registrado corretamente no syslog antes de interromper o sistema?

Bem, se as unidades estiverem falhando, não faz sentido tentar gravar nelas, pois qualquer gravação adicional poderá destruir o que resta. Sem saber a natureza exata da sua falha, pode ser que o seu volume ou sistema de arquivos tenha se tornado somente leitura. Por padrão, o Ubuntu está configurado para mudar para um sistema de arquivos somente leitura se houver erros no volume raiz.

como posso melhorar o registro e as notificações para que da próxima vez eu possa fazer uma autópsia melhor?

Configure o log em um host syslog remoto. Dessa forma, uma falha de armazenamento não significa que nada possa ser registrado.

Como ser notificado sobre problemas de RAID do mdadm?

Responder1

Responder2

informação relacionada