Um problema estranho relacionado ao ext4/lvm/raid-5 após a recuperação da partição

Question

Há algumas coisas que poderiam ter acontecido. Primeiro, você não mencionou a desmontagem do sdc7 antes de criar a imagem do disco, então pode ser que os dados estivessem sendo gravados no momento. Vou adivinhar que não foi o caso, ou você não estaria perguntando. Não posso culpar sua reação de "primeira coisa, crie uma imagem do disco", é uma reação muito boa. Embora eu note que antes de você reiniciar, o kernel ainda tinha a tabela de partição na memória, verifique /proc/partitions.

A primeira coisa a verificar é se há erros de memória. Você pode ter RAM ruim. Seus dados, sem dúvida, passaram pela RAM várias vezes. Presumo que você não tenha memória ECC, o que provavelmente detectaria isso.

Os discos rígidos também apresentam erros. Procurando uma folha de especificações de alguns discos rígidos de consumo aleatórios, eles dizem 1 por 100 Tbit. Você copiou 1,2 TB pelo menos algumas vezes (lido da origem, lido do destino), então isso é algo como 19 Tbit lidos. Ter um pequeno erro nisso é verossímil. (Infelizmente, eles não fornecem uma taxa de erro para gravações nas folhas de especificações).

Houve alguma rima ou razão por trás das corrupções de byte único? cmp -lpode informar os bytes que variam. Por exemplo, se fosse sempre o mesmo deslocamento em uma página (o tamanho da página provavelmente é 4K) e sempre o mesmo bit, isso apontaria quase conclusivamente para RAM com defeito. Mesmo que seja sempre o mesmo bit ou o mesmo deslocamento, isso seria bastante conclusivo (e você tinha CRC32 para todos os quatro arquivos ou apenas um?)

Answer 1

Há algumas coisas que poderiam ter acontecido. Primeiro, você não mencionou a desmontagem do sdc7 antes de criar a imagem do disco, então pode ser que os dados estivessem sendo gravados no momento. Vou adivinhar que não foi o caso, ou você não estaria perguntando. Não posso culpar sua reação de "primeira coisa, crie uma imagem do disco", é uma reação muito boa. Embora eu note que antes de você reiniciar, o kernel ainda tinha a tabela de partição na memória, verifique /proc/partitions.

A primeira coisa a verificar é se há erros de memória. Você pode ter RAM ruim. Seus dados, sem dúvida, passaram pela RAM várias vezes. Presumo que você não tenha memória ECC, o que provavelmente detectaria isso.

Os discos rígidos também apresentam erros. Procurando uma folha de especificações de alguns discos rígidos de consumo aleatórios, eles dizem 1 por 100 Tbit. Você copiou 1,2 TB pelo menos algumas vezes (lido da origem, lido do destino), então isso é algo como 19 Tbit lidos. Ter um pequeno erro nisso é verossímil. (Infelizmente, eles não fornecem uma taxa de erro para gravações nas folhas de especificações).

Houve alguma rima ou razão por trás das corrupções de byte único? cmp -lpode informar os bytes que variam. Por exemplo, se fosse sempre o mesmo deslocamento em uma página (o tamanho da página provavelmente é 4K) e sempre o mesmo bit, isso apontaria quase conclusivamente para RAM com defeito. Mesmo que seja sempre o mesmo bit ou o mesmo deslocamento, isso seria bastante conclusivo (e você tinha CRC32 para todos os quatro arquivos ou apenas um?)

Um problema estranho relacionado ao ext4/lvm/raid-5 após a recuperação da partição

Responder1

informação relacionada