Meu pool ZFS parece estar se autodestruindo, alguma ideia?

Meu pool ZFS parece estar se autodestruindo, alguma ideia?

Contexto

Recentemente notei meu freeNAS me dizendo que havia problemas com uma unidade. Eu tinha cerca de 16 setores defeituosos, passei pelos testes inteligentes etc. Comprei uma unidade nova, de mesma capacidade, fui instalá-la e, por algum motivo, um adaptador de energia para uma das outras unidades se soltou parcialmente, então eu estava com 4 de 6 unidades na matriz RAID Z2 ou basicamente sem redundância.

A matriz começou a resilver, nunca foi concluída e sempre me dizia que havia muitos erros (14k+). Eu descobri a parte do adaptador de energia, pois era improvável que duas unidades falhassem, especialmente com a segunda falhando logo após a abertura do gabinete. Conectei-o novamente e o ZFS não pôde fazer nada com ele.

Acabei substituindo a unidade antiga (mesma unidade, mas o ZFS não conseguiu reconhecê-la de alguma forma, correspondida em gpt/smartctl/zpool) por ela mesma, e o ZFS voltou a resilvering.

Claro, isso ainda tem os mesmos erros, agora também recebo uma terceira unidade resilver sem motivo, fiz algumas limpezas e limpezas do ZFS, e ainda está resilver o dia todo, todos os dias, falhando, eu limpo, resilver um pouco mais e não vai a lugar nenhum.

Além do fato de que estou profundamente desapontado com a incapacidade do ZFS de se recuperar desta situação de risco relativamente baixo, onde na verdade apenas uma unidade falhou e foi prontamente substituída, o NAS e seu principal e único compartilhamento ainda são utilizáveis, e eu tive de qualquer maneira, fiz um backup após a primeira falha no disco.

Pergunta

Existe alguma maneira de fazer o ZFS entender que esse pool está bom e que ele deve apenas resilver as duas novas unidades (uma das quais sendo uma antiga que eu limpei para ajudar o ZFS a conseguir usá-lo) e parar de me dizer sobre esses erros?

Como um resilver -force -scrub_later -everything_is_obviously_fine -or_i_couldnt_possably_use_the_share -just_mark_it_all_online -lets_get_back_to_actual_work_now ?

Devagar

Estou um pouco preocupado, pois agora ele está fingindo para mim que está resilver 3 de 6 unidades em um pool raidz2 que claramente contém dados utilizáveis, o que duvido seriamente que alguém possa fazer.

Espero que isso aumente para 4 unidades em breve, ou talvez todas as 6, por que não, recriando todos os meus dados a partir do acúmulo de poeira magnética residual do ar ao redor dos discos rígidos.

Qualquer sugestão é apreciada. Obrigado!

Responder1

Nunca recebi uma resposta e as coisas pioraram antes de melhorarem. No geral, depois de pelo menos uma dúzia de resilverings, limpezas, limpezas, remoção de arquivos que continham erros e reinicializações, ele voltou a ficar online.

Resumindo, acho que isso significa principalmente que o ZFS gosta de dar grandes avisos e o status do zpool não é exatamente claro, já que resilver 3 de 6 unidades em um raidz2 não era fisicamente possível para um.

Mas principalmente, contanto que seus dados ainda estejam disponíveis e tudo pareça ok do ponto de vista do uso de compartilhamento, provavelmente terminará bem como aqui, apenas continue reiniciando, limpando, limpando e lidando com arquivos que possuem erros de soma de verificação.

informação relacionada