Eu configurei uma pequena máquina de servidor Ubuntu 11.04 baseada em raid e acabei de receber este e-mail dela. Como posso verificar ou verificar isso?
Ricardo
Esta é uma mensagem de e-mail gerada automaticamente pelo mdadm rodando no godzilla
Um evento de falha foi detectado no dispositivo md /dev/md/0.
Pode estar relacionado ao dispositivo componente /dev/sda1.
Fielmente seu, etc.
PS O arquivo /proc/mdstat atualmente contém o seguinte:
Personalidades: [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 ativo sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 bloqueia super 1.2 nível 5, Pedaço de 512k, algoritmo 2 [4/3] [_UUU] [>....................] verificação = 2,2% (21655188/975711744) conclusão = velocidade de 4419,8 minutos =3597 mil/seg
&> gato /proc/mdstatPersonalidades: [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 ativo sda10 sdb1[1] sdd1[3] sdc1[2] 2927135232 bloqueia super 1.2 nível 5, Pedaço de 512k, algoritmo 2 [4/3] [_UUU]
dispositivos não utilizados:
gato /proc/mdstatPersonalidades: [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0: raid5 ativosda1[0]Fsdb1[1]sdd1[3] sdc1[2] 2927135232 blocos super 1.2 nível 5, pedaço de 512k, algoritmo 2 [4/3] [_UUU]
dispositivos não utilizados:
Mensagem [775549.274966] md/raid:md0: Falha de disco em sda1, desativando dispositivo. [775549.274967] md/raid:md0: Operação continuando em 3 dispositivos. [775549.280021] md/raid:md0: erro de leitura não corrigível (setor 43310408 em sda1
). [775549.280028] md/raid:md0: erro de leitura não corrigível (setor 43310416 em sda1
). [775549.280031] md/raid:md0: erro de leitura não corrigível (setor 43310424 em sda1
). [775549.280035] md/raid:md0: erro de leitura não corrigível (setor 43310432 em sda1
). [775549.280039] md/raid:md0: erro de leitura não corrigível (setor 43310440 em sda1
). [775549.280043] md/raid:md0: erro de leitura não corrigível (setor 43310448 em sda1
). [775549.280047] md/raid:md0: erro de leitura não corrigível (setor 43310456 em sda1
). [775549.280051] md/raid:md0: erro de leitura não corrigível (setor 43310464 em sda1
). [775549.280055] md/raid:md0: erro de leitura não corrigível (setor 43310472 em sda1
). [775549.280226] ata7: EH completo [775549.316567] ata7.00: exceção Emask 0x0 SAct 0x0 SERr 0x300000 ação 0x6 [775549.319133] ata7.00: BMDMA stat 0x45 [775549.321658] ta7: SError: { Dispar BadCRC } [775549.324237] ata7.00 : comando com falha: READ DMA EXT [775549.326754] ata7.00: cmd 25/00:f8:28:ed:94/00:03:02:00:00/e0 tag 0 dma 52019
2 in [775549.326757] res 51/ 84:48:78:7f:2e/84:00:03:00:00/e0 Emask 0x10 (
erro de barramento ATA) [775549.331806] ata7.00: status: { DRDY ERR } [775549.334350] ata7.00: erro: { CICV ABRT } [775549.336890] ata7: link de reinicialização forçada [775549.336895] ata7: nv: ignorando reinicialização forçada na porta ocupada [775549.340260] md: md0: verificação de dados concluída. [775549.804062] ata7: link SATA até 3,0 Gbps (SStatus 123 SControl 300) [775549.844352] ata7.00: configurado para UDMA/33 [775549.844390] ata7: EH completo [775549.936450] Impressão de configuração RAID: 936456] --- nível: 5 rd:4 wd:3 [775549.936460] disco 0, o:0, dev:sda1 [775549.936463] disco 1, o:1, dev:sdb1 [775549.936465] disco 2, o:1, dev:sdc1 [775549.936507] disco 3, o:1, dev:sdd1 [775549.936557] Impressão de configuração RAID: [775549.936559] --- nível:5 rd:4 wd:3 [775549.936562] disco 1, o:1, dev:sdb1 [775549.936564] disco 2, o:1, dev:sdc1 [775549.936567] disco 3, o:1, dev:sdd1
sudo mdadm --detail /dev/md0
/dev/md0: Versão: 1.2 Tempo de criação: Sábado, 1º de janeiro 14:43:44 2005 Nível de ataque: raid5 Tamanho do array: 2927135232 (2791,53 GiB 2997,39 GB) Tamanho de desenvolvimento usado: 975711744 (930,51 GiB 999,13 GB) Dispositivos de ataque 4 Total Dispositivos: 4 Persistência: Superblock é persistente
Update Time : Sun Feb 5 19:17:41 2012 State : clean, degraded Active Devices : 3 Working Devices : 3 Failed Devices : 1 Spare Devices : 0 Layout : left-symmetric Chunk Size : 512K Name : godzilla:0 (local to host godzilla) UUID : 7c2be5e4:25e338e5:b575b8cd:83896caf Events : 657 Number Major Minor RaidDevice State 0 0 0 0 removed 1 8 17 1 active sync /dev/sdb1 2 8 33 2 active sync /dev/sdc1 3 8 49 3 active sync /dev/sdd1 0 8 1 - faulty spare /dev/sda1
Responder1
Eu daria uma olhada na saída de 'dmesg' e também no arquivo /var/log/syslog. Pode haver dicas sobre problemas com /dev/sda1.
O disco rígido pode ter travado, mas também pode ser apenas um cabo que não está bem conectado (os cabos SATA são simplesmente... não tão incríveis). Veja se o dispositivo ainda está online, talvez esteja disponível usando um nome diferente como /dev/sde1 ou qualquer que seja o próximo nome gratuito em seu sistema. Como mencionado, eu verificaria dmesg/syslog, SMART também. Talvez o cabo precise apenas ser conectado corretamente ou substituído. Na maioria dos casos, você pode adicionar novamente o disco à sua matriz RAID - eu só usaria esses comandos se o problema realmente tivesse a ver com cabos quebrados ou algo comparável, ou seja, nenhuma falha "real" no disco rígido.
mdadm --fail /dev/mdX /dev/sdX # set the disk faulty
mdadm -r /dev/mdX /dev/sdX # remove faulty disk
mdadm --re-add /dev/mdX /dev/sdX # re-add disk
Isenção de responsabilidade: sem garantia, você deve ter backups, isso reconstruirá sua matriz RAID - nesse momento não há redundância, etc.