DL380 G5, RAID5, ext3, RAID falhou

DL380 G5, RAID5, ext3, RAID falhou

Temos um antigo servidor HP DL380G5, com 5 discos SCSI 3,5'' de 300GB em array RAID5, em um compartimento externo, formatado como um volume lógico com sistema de arquivos ext3, que hospeda 1,2 TB de dados sensíveis de pacientes clínicos.

Dois discos mostraram falha preditiva no hpacucli, então substituí um deles primeiro e vi que estava tudo bem, mas não vi que também indicava "Pronto para reconstrução". Eu também mudei o segundo de forma totalmente descuidada, e agora ele diz que o RAID FALHOU.

Devolvi o disco antigo, tentei reiniciar o servidor, mas agora ele me coloca no modo de recuperação durante a inicialização e diz que não é possível encontrar o volume lógico.

Posso fazer alguma coisa para tentar restaurar isso? Não temos backup, infelizmente. Qualquer ajuda seria realmente apreciada!

Eu estava pensando em devolver AMBAS as unidades antigas. Há alguma chance de isso reviver o RAID?

Responder1

Desculpe. Mas isso é um erro do operador.

Você tinha dois discos com falha em uma matriz RAID5 e removeu mais discos do que a matriz poderia suportar.

Fazer isso sem nenhum backup é o maior erro.

Você deve entrar em contato com uma empresa de recuperação de dados para tentar recuperar os dados da unidade lógica quebrada.

Responder2

Não ligue o sistema novamente. Desligue-o e ligue para um serviço de recuperação de dados. Existem vários serviços que permitem a recuperação remota deste tipo de falha. Neste ponto, tudo que você pode fazer é piorar a situação.

Isso geralmente envolve conectar todas as unidades diretamente a um HBA em bom estado (não uma placa RAID ou outro controlador!) E iniciar uma imagem Linux específica para download com ferramentas de gerenciamento remoto. A empresa então acessa remotamente o sistema, avalia o status do disco e recupera quaisquer metadados RAID restantes. Usando software proprietário, eles podem remontar um disco RAID virtual (detalhe técnico: geralmente algo que se conecta ao sistema mapeador de dispositivos Linux padrão). Isso então expõe o software RAID somente leitura (sem acelerador RAID SoC). As próximas etapas são verificar se os dados não estão corrompidos além do uso e clonar o disco virtual em um novo disco para concluir a recuperação dos dados. Depois disso, você pode se preocupar em colocar o sistema novamente em funcionamento.

Embora eu não vá citar nenhum serviço aqui, a maioria deles é fácil de encontrar e para aqueles com serviços remotos (economizando a viagem de ida e volta de envio das unidades RAID + unidade de recuperação para eles e aguardando a recuperação + clone e então eles os enviam de volta) você obtém o benefício dos dados nunca saírem de suas instalações.


Uma pequena quantidade de boas notícias: contanto que o controlador RAID (ou você) não tenha gravado nenhum dado novo em nenhum dos discos e o aviso de pré-falha não seja um aviso de falha, há praticamente 99,9999% de chance uma boa equipe de recuperação de dados pode restaurar tudo isso, e de forma razoavelmente rápida também.

Responder3

Re: restaurar unidades antigas.

Como o seu RAID está completamente morto do jeito que está, você tem pouco a perder ao reinstalar as duas unidades pré-falha.

Instale-os nas baias originais.

Lembre-se de que eles são pré-falha, não falharam completamente, então há uma boa chance de que eles funcionem por tempo suficiente para resgatar seus dados.

Há uma chance de o ataque simplesmente não aparecer, e uma pequena chance de o controlador pedir para "redefinir" o ataque (escolha NÃO/CANCELAR) e uma pequena chance de o controlador de ataque redefinir automaticamente o ataque, o que negaria qualquer valor adicionado por uma empresa de recuperação de dados.

Portanto, sua principal prioridade, se o RAID surgir, é retirar os dados. Isso significa ter pelo menos 1,2 TB de espaço disponível e pronto para copiar dados, e uma ferramenta como robocopyou xcopy32ou no seu caso Linux rsync pronta para ser executada. Você não quer perder tempo lendo páginas de manual e descobrindo a sintaxe se suas unidades estiverem desperdiçando os últimos minutos.


Assim que seus dados estiverem seguros, recrie o ataque como um raid6 com as novas unidades. Você perderá 300 GB de capacidade, mas ganhará tolerância para duas unidades. Ou adicione uma unidade adicional e considere um raid10 com mais de 6 unidades. Ou considere aposentar completamente esta máquina; o G5 tem mais de 10 anos e não é mais adequado para tarefas de produção importantes.

E não estou tentando inicializar, mas também configure uma solução de backup adequada. Haverá uma próxima vez.

informação relacionada