Falha repetida de disco no servidor Dell T610

Falha repetida de disco no servidor Dell T610

Comprei um Poweredge T610 usado e atualizei-o para 2 processadores Hexcore Xeon X5675 e 96 GB de RAM. Inicialmente, usei 3 unidades WD green de 2 TB em um array RAID-5 (controlador Perc6i) e instalei o servidor Ubuntu no disco virtual. Essa configuração me serviu bem por cerca de um ano e então os problemas começaram:

Comprei algumas unidades novas para expandir como um segundo array - 4 unidades vermelhas WD de 3 TB. Nesse ínterim, aprendi que pelo menos o WD green não é uma boa escolha, então queria fazer backup de alguns dados do novo VD. Acontece que o Perc6i não gosta de drives >2TB, mas reconheceu os primeiros 2 de 3 TB. Eu ainda não tinha começado a configurar um VD com as novas unidades, mas 3 semanas depois, meu array verde WD começou a corromper (primeiro apenas glifos estranhos em alguns softwares, depois problemas mais graves até a sequência de inicialização corrompida). Acabei contratando um serviço profissional de recuperação de dados que felizmente poderia me ajudar. Troquei o Perc6i por um H700 e configurei um array RAID6 de 4 unidades vermelhas WD de 3 TB (que testei com o teste estendido de diagnóstico de hardware da Dell antes de configurar - sem erros em nenhum deles). Instale o Ubuntu, todos os softwares que preciso, x2go etc... Instalado e funcionando novamente.

Agora tenho o mesmo problema de antes - no X2go ele começa com o mesmo software (pacote artemis de bioinformática) cuspindo glifos na linha de comando e parece que estou voltando à estaca zero. Todos os LEDs de status nos caddies ficam verdes constantes, ou seja, online. Nenhuma falha prevista que o sistema reconheça, pelo menos.

Estou começando a me perguntar qual poderia ser o problema:

O que eu não acho que seja provável: -falha no disco primário (de novo!), já que as unidades eram novas, não apresentavam setores defeituosos após testes estendidos e não tiveram muito tempo de inicialização. -o controlador perc6i foi trocado por um H700 após o primeiro desastre e não deve ser o problema

O que preciso de ajuda para avaliar: -problemas de backplane/cabo? (O controlador H700 veio com cabos para outro tipo de servidor que não cabia no meu caso - simplesmente usei outro cabo SATA6 para conectar o controlador ao backplane) As unidades estão, a propósito, nos mesmos compartimentos dos anteriores, com falha. com um cabo SATA original da Dell indo para lá.

-Problemas na placa-mãe? -Problemas de CPU ou RAM? -Fonte de alimentação (picos de tensão??)

Alguém já teve um problema semelhante antes? Qualquer ajuda aqui é muito apreciada. Infelizmente estou ausente por mais duas semanas antes de conseguir acessar o servidor (tanto fisicamente quanto na rede), o problema foi "relatado" por minha esposa, que trabalha com o servidor em nossa rede local (mas infelizmente não será capaz de ajudar na solução de problemas).


Sim, executei o procedimento completo de diagnóstico de hardware da Dell, sem problemas. Apenas uma das unidades foi detectada com blocos defeituosos, mas não consegui reconstruir o array raid 5, daí o especialista em recuperação de dados. Todo o outro hardware estava ok

Eu só me pergunto se poderia haver problemas inconsistentes, como contatos defeituosos em qualquer lugar, que podem passar pelos testes em um ponto e falhar em outro momento. Ou se os testes não cobrirem todos os cenários...

Responder1

Por experiência própria, parece um problema de corrupção de memória RAM. A primeira coisa que eu tentaria é uma ferramenta de diagnóstico de memória. A Dell os disponibiliza para download.

Se não encontrar erros, eu puxaria todo o hardware para reduzir ao mínimo necessário e os adicionaria novamente até ver o problema. Muito demorado, mas às vezes é a única maneira se o diagnóstico não mostrar nada. Obviamente, é difícil fazer isso com discos rígidos, mas você pode fazer isso com CPU e memória RAM. Não se esqueça de adicionar as coisas uma de cada vez ou você não saberá qual é a culpa.

Minha outra sugestão é usar um hipervisor e criar máquinas virtuais em vez de instalar em bare metal. Isso tornará muito mais fácil restaurar a funcionalidade diante de falhas. Além disso, estabelecer um regime de backup antes de instalar aplicativos ajudará você a evitar a necessidade de serviços de recuperação de dados novamente.

Responder2

Má sorte? Teste o HDD em outro computador novo para ver seu status atual.

Tenha em mente que um T610 tem cerca de 9 anos. Sinceramente, acho que qualquer desktop atual seria mais rápido que um T610.

O firmware da unidade pode impactar, mas seu array os sinalizaria como disco externo, o fato de você ter alterado todos de uma vez é melhor, nenhuma unidade Dell com seu firmware com unidade Vanilla misturada, o controlador não permitiria isso.

Seu firmware no disco permite que o controlador faça funções avançadas com o disco, enquanto um array, se for usado um disco vanilla com firmware normal, funcionará normalmente.

O fato de seu array ter sido detectado me faz pensar que o controlador pode vê-los e usá-los. É por isso que afirmo a princípio azar.

informação relacionada