Software raid mdadm não adicionando sobressalente

Question 1

Não tenho certeza se você realmente substituiu a(s) unidade(s) com falha. Porque seus sintomas fariam sentido para mim se você adicionasse novamente a unidade defeituosa; nesse caso, há uma boa chance de a unidade ter travado. Se você adicionou novamente a unidade defeituosa, há erros subsequentes em/var/log/messages ou dmesg?

(Aliás, eu recomendo fortemente não adicionar novamente uma unidade defeituosa a uma matriz RAID. Se a falha corrompeu os dados no prato, você pode descobrir que, ao adicioná-los de volta à matriz, a ressincronização deixa o arquivo corrompido no disco, e da próxima vez que você ler os arquivos, será uma questão de saber se você obterá dados bons ou ruins, dependendo de qual disco responder primeiro. Já vi isso acontecer.)

Answer

Não tenho certeza se você realmente substituiu a(s) unidade(s) com falha. Porque seus sintomas fariam sentido para mim se você adicionasse novamente a unidade defeituosa; nesse caso, há uma boa chance de a unidade ter travado. Se você adicionou novamente a unidade defeituosa, há erros subsequentes em/var/log/messages ou dmesg?

(Aliás, eu recomendo fortemente não adicionar novamente uma unidade defeituosa a uma matriz RAID. Se a falha corrompeu os dados no prato, você pode descobrir que, ao adicioná-los de volta à matriz, a ressincronização deixa o arquivo corrompido no disco, e da próxima vez que você ler os arquivos, será uma questão de saber se você obterá dados bons ou ruins, dependendo de qual disco responder primeiro. Já vi isso acontecer.)

Question 2

Usar mdadm --details listará uma unidade como sobressalente durante a reconstrução. Após a conclusão da reconstrução, ele não aparecerá mais como sobressalente.

[ 6348.303711] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
[ 6348.303716] end_request: I/O error, dev sdb, sector 586065095
[ 6348.303753] ata2: EH complete
[ 6348.303776] raid1: sdb: unrecoverable I/O read error for block 586065024
[ 6348.305625] md: md0: recovery done.

A primeira linha indica que houve falha na realocação e os dados não foram lidos. As três linhas a seguir indicam que os dados não puderam ser lidos e listam os setores que estão ilegíveis.

Como Rodger apontou, a unidade está ruim, não a adicione novamente. Nunca é uma boa ideia adicionar novamente uma unidade que falhou. Puxe a unidade e substitua-a. Se desejar, execute o diagnóstico na unidade com falha, mas somente depois de ela ter sido retirada e substituída.

Answer

Usar mdadm --details listará uma unidade como sobressalente durante a reconstrução. Após a conclusão da reconstrução, ele não aparecerá mais como sobressalente.

[ 6348.303711] sd 1:0:0:0: [sdb] Add. Sense: Unrecovered read error - auto reallocate failed
[ 6348.303716] end_request: I/O error, dev sdb, sector 586065095
[ 6348.303753] ata2: EH complete
[ 6348.303776] raid1: sdb: unrecoverable I/O read error for block 586065024
[ 6348.305625] md: md0: recovery done.

A primeira linha indica que houve falha na realocação e os dados não foram lidos. As três linhas a seguir indicam que os dados não puderam ser lidos e listam os setores que estão ilegíveis.

Como Rodger apontou, a unidade está ruim, não a adicione novamente. Nunca é uma boa ideia adicionar novamente uma unidade que falhou. Puxe a unidade e substitua-a. Se desejar, execute o diagnóstico na unidade com falha, mas somente depois de ela ter sido retirada e substituída.

Question 3

Primeiro, sim, livre-se de qualquer disco que esteja gerando erros de leitura que acabem no arquivo de log. Isso significa que a realocação do bloco defeituoso falhou e/ou a unidade está perto de morrer.

Eu sugiro que para resgatar seus dados você use um CD de resgate do Linux comohttp://ubuntu-rescue-remix.org/para usar o ddrescue. Isso pode fazer uma cópia da imagem para uma nova partição de disco e fará muitas tentativas, etc., para tentar recuperar sua partição. Monte uma unidade USB ou outra partição

mkdir /tmp/x && montar /dev/sdd1 /tmp/x

para manter o arquivo de log do ddrescue - então você pode parar o ddrescue (ctrl-C) e reiniciá-lo mais tarde do mesmo ponto.

Faça uma partição no novo disco um pouco maior que o disco antigo. Você não precisa usar o disco inteiro!

Inicialize o CD de recuperação com "nodmraid" como parâmetro de inicialização do kernel. Se estiver usando o live CD do Ubuntu, instale o RAID e o LVM se estiver usando

apt-get instalar mdadm lvm2 gddrescue

você precisará estar na internet para que isso funcione). Caso contrário, use o CD de recuperação do Ubuntu para a etapa ddrescue. Troquei entre o CD de resgate para execuções do ddrescue e o CD ao vivo para o trabalho do grub e do fsck.

Supondo que /dev/sdb seja seu disco de origem com falha e /dev/sdx seja seu novo disco e /mnt/x seja uma chave USB ou uma partição em outro disco que foi montado. Vocêprecisaro arquivo de log ddrescue, realmente! Pois ele rastreia o andamento do ddrescue e permite que ele seja interrompido.

Conformehttp://www.forensicswiki.org/wiki/Ddrescue

ddrescue --no-split /dev/sdb /dev/sdX arquivo de imagem /mnt/x/logfile

então

ddrescue --direct --max-retries=3 /dev/sdb /dev/sdX /mnt/x/logfile

então

ddrescue --direct --retrim --max-retries=3 /dev/sdb /dev/sdX /mnt/x/logfile

Não tenha medo de pressionar Ctrl-C no processo se estiver demorando horas para recuperar um único setor. Basta passar para a próxima etapa (a etapa 1 deve ser bem-sucedida, não importa o que aconteça). A última etapa tenta recuperar as últimas migalhas de dados utilizáveis.

Você também terá que fazer

mdadm --create /dev/md99 --level-1 --raid-devices=2 faltando /dev/sdX

para criar uma nova matriz RAID usando o novo disco, isso grava um novo superbloco RAID na partição (nos últimos 64K a 128K no final da partição).

Remova seu antigo disco com falha /dev/sdb do sistema para que não fique visível para o Linux.

Torne seu disco RAID de origem acessível. Você pode ter que usar o parâmetro "nodmraid" para o kernel de inicialização do kernel, pois tive problemas com o CD de resgate do Ubuntu e acabei usando o live CD do Ubuntu (10.4) onde o nodmraid está nas opções F6. Você só precisa usar

mdadm --assemble /dev/md99 /dev/sdX

Em seguida, fsck ou faça qualquer verificação necessária nos dados na matriz RAID md99 (usei o vgscan e consegui ver os LVs do LVM para executar a verificação). Eu uso XFS para mythtv, mas o comando xfs_check travou meu sistema, mas xfs_repair estava OK.

Monte o diretório /boot do seu novo /dev/sdX

monte /dev/mapper/my_vg/root_lv /tmp/x

em seguida, coloque um novo registro de inicialização GRUB no novo disco RAID /dev/sdX (somente se você inicializar a partir do RAID!)

grub-setup -d /tmp/x/boot/grub /dev/sdX

agora você tem um array RAID (quase) inicializável. Você também pode fazer a configuração usando o próprio GRUB ou usar dd para copiar os primeiros 446 bytes de /dev/sdb para /dev/sdX. APENAS os primeiros 446 bytes, o resto do primeiro setor é a sua tabela de partições, que você encherá muito se copiar mais! Você também pode ter que fazer o mesmo para o primeiro setor em sua partição /dev/sdX1 (digamos). Faça backup de todos os setores que você irá sobrescrever, também usando dd.

Se estiver usando o grub2 e estiver inicializando a partir do RAID, você descobrirá que o UUID da matriz RAID foi alterado e sua inicialização falhará. Edite a linha de comando de inicialização (e no painel de inicialização do Grub) para remover splash e quiet, para que você possa ver o que está acontecendo. Então, após a falha na inicialização, você será deixado no initramfs.

mdadm --assemble /dev/md99 /dev/sdX

em seguida, verifique /proc/mdstat para ter certeza de que o array está lá. Se for, basta "sair" e esperamos que sua sub-rotina de inicialização GRUB funcione bem (a minha foi configurada para usar LVM, então apenas encontrou os LVs no dispositivo RAID quando havia algum dispositivo RAID lá, apenas procurou pelo LV). Depois de inicializado, você estará quase pronto.

O arquivo de imagem initrd (arquivo cpio compactado em gzip) contém uma cópia do mdadm.conf usado durante o processo de inicialização, visível e editável como /etc/mdadm/mdamdm.conf durante o processo de inicialização. Se você conseguir inicializar seu sistema normalmente, basta atualizar o initramfs usando

atualizar-initramfs -u

Se você não conseguir inicializar o sistema devido ao UUID incompatível no arquivo mdadm.conf

Esteja ciente de que seu dispositivo de destino /dev/sdX pode aparecer como /dev/sdY quando você inicializa de uma maneira diferente (Grub, resgate, inicialização real).

A propósito, a menos que você esteja usando RAID5 e esteja realmente interessado no alinhamento de blocos, eu usaria uma partição para sua matriz RAID, você não precisa usar um disco inteiro (especialmente se estiver substituindo um disco de 1 TB por um de 2 TB um). Você sempre pode adicionar outra partição e uma segunda matriz RAID posteriormente para usar todos os 2 TB.

Ufa! Feito!

Answer

Primeiro, sim, livre-se de qualquer disco que esteja gerando erros de leitura que acabem no arquivo de log. Isso significa que a realocação do bloco defeituoso falhou e/ou a unidade está perto de morrer.

Eu sugiro que para resgatar seus dados você use um CD de resgate do Linux comohttp://ubuntu-rescue-remix.org/para usar o ddrescue. Isso pode fazer uma cópia da imagem para uma nova partição de disco e fará muitas tentativas, etc., para tentar recuperar sua partição. Monte uma unidade USB ou outra partição

mkdir /tmp/x && montar /dev/sdd1 /tmp/x

para manter o arquivo de log do ddrescue - então você pode parar o ddrescue (ctrl-C) e reiniciá-lo mais tarde do mesmo ponto.

Faça uma partição no novo disco um pouco maior que o disco antigo. Você não precisa usar o disco inteiro!

Inicialize o CD de recuperação com "nodmraid" como parâmetro de inicialização do kernel. Se estiver usando o live CD do Ubuntu, instale o RAID e o LVM se estiver usando

apt-get instalar mdadm lvm2 gddrescue

você precisará estar na internet para que isso funcione). Caso contrário, use o CD de recuperação do Ubuntu para a etapa ddrescue. Troquei entre o CD de resgate para execuções do ddrescue e o CD ao vivo para o trabalho do grub e do fsck.

Supondo que /dev/sdb seja seu disco de origem com falha e /dev/sdx seja seu novo disco e /mnt/x seja uma chave USB ou uma partição em outro disco que foi montado. Vocêprecisaro arquivo de log ddrescue, realmente! Pois ele rastreia o andamento do ddrescue e permite que ele seja interrompido.

Conformehttp://www.forensicswiki.org/wiki/Ddrescue

ddrescue --no-split /dev/sdb /dev/sdX arquivo de imagem /mnt/x/logfile

então

ddrescue --direct --max-retries=3 /dev/sdb /dev/sdX /mnt/x/logfile

então

ddrescue --direct --retrim --max-retries=3 /dev/sdb /dev/sdX /mnt/x/logfile

Não tenha medo de pressionar Ctrl-C no processo se estiver demorando horas para recuperar um único setor. Basta passar para a próxima etapa (a etapa 1 deve ser bem-sucedida, não importa o que aconteça). A última etapa tenta recuperar as últimas migalhas de dados utilizáveis.

Você também terá que fazer

mdadm --create /dev/md99 --level-1 --raid-devices=2 faltando /dev/sdX

para criar uma nova matriz RAID usando o novo disco, isso grava um novo superbloco RAID na partição (nos últimos 64K a 128K no final da partição).

Remova seu antigo disco com falha /dev/sdb do sistema para que não fique visível para o Linux.

Torne seu disco RAID de origem acessível. Você pode ter que usar o parâmetro "nodmraid" para o kernel de inicialização do kernel, pois tive problemas com o CD de resgate do Ubuntu e acabei usando o live CD do Ubuntu (10.4) onde o nodmraid está nas opções F6. Você só precisa usar

mdadm --assemble /dev/md99 /dev/sdX

Em seguida, fsck ou faça qualquer verificação necessária nos dados na matriz RAID md99 (usei o vgscan e consegui ver os LVs do LVM para executar a verificação). Eu uso XFS para mythtv, mas o comando xfs_check travou meu sistema, mas xfs_repair estava OK.

Monte o diretório /boot do seu novo /dev/sdX

monte /dev/mapper/my_vg/root_lv /tmp/x

em seguida, coloque um novo registro de inicialização GRUB no novo disco RAID /dev/sdX (somente se você inicializar a partir do RAID!)

grub-setup -d /tmp/x/boot/grub /dev/sdX

agora você tem um array RAID (quase) inicializável. Você também pode fazer a configuração usando o próprio GRUB ou usar dd para copiar os primeiros 446 bytes de /dev/sdb para /dev/sdX. APENAS os primeiros 446 bytes, o resto do primeiro setor é a sua tabela de partições, que você encherá muito se copiar mais! Você também pode ter que fazer o mesmo para o primeiro setor em sua partição /dev/sdX1 (digamos). Faça backup de todos os setores que você irá sobrescrever, também usando dd.

Se estiver usando o grub2 e estiver inicializando a partir do RAID, você descobrirá que o UUID da matriz RAID foi alterado e sua inicialização falhará. Edite a linha de comando de inicialização (e no painel de inicialização do Grub) para remover splash e quiet, para que você possa ver o que está acontecendo. Então, após a falha na inicialização, você será deixado no initramfs.

mdadm --assemble /dev/md99 /dev/sdX

em seguida, verifique /proc/mdstat para ter certeza de que o array está lá. Se for, basta "sair" e esperamos que sua sub-rotina de inicialização GRUB funcione bem (a minha foi configurada para usar LVM, então apenas encontrou os LVs no dispositivo RAID quando havia algum dispositivo RAID lá, apenas procurou pelo LV). Depois de inicializado, você estará quase pronto.

O arquivo de imagem initrd (arquivo cpio compactado em gzip) contém uma cópia do mdadm.conf usado durante o processo de inicialização, visível e editável como /etc/mdadm/mdamdm.conf durante o processo de inicialização. Se você conseguir inicializar seu sistema normalmente, basta atualizar o initramfs usando

atualizar-initramfs -u

Se você não conseguir inicializar o sistema devido ao UUID incompatível no arquivo mdadm.conf

Esteja ciente de que seu dispositivo de destino /dev/sdX pode aparecer como /dev/sdY quando você inicializa de uma maneira diferente (Grub, resgate, inicialização real).

A propósito, a menos que você esteja usando RAID5 e esteja realmente interessado no alinhamento de blocos, eu usaria uma partição para sua matriz RAID, você não precisa usar um disco inteiro (especialmente se estiver substituindo um disco de 1 TB por um de 2 TB um). Você sempre pode adicionar outra partição e uma segunda matriz RAID posteriormente para usar todos os 2 TB.

Ufa! Feito!

Software raid mdadm não adicionando sobressalente

Responder1

Responder2

Responder3

informação relacionada