
Eu tenho um servidor com WDC WD3202ABYS... Existem 100 hosts virtuais. O servidor está funcionando há cerca de 5 anos e neste período troquei 4 discos. Tudo pelo mesmo motivo: erro sata. O último:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
06 b6 7b 57
end_request: I/O error, dev sdb, sector 112622423
Buffer I/O error on device dm-8, logical block 14077747
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077748
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077749
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077750
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077751
lost page write due to I/O error on dm-8
Buffer I/O error on device dm-8, logical block 14077756
lost page write due to I/O error on dm-8
ata2: EH complete
SCSI device sdb: 625142448 512-byte hdwr sectors (320073 MB)
sdb: Write Protect is off
sdb: Mode Sense: 00 3a 00 00
SCSI device sdb: drive cache: write back
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:90:17:30:b7/00:02:08:00:00/e0 tag 0 dma 335872 out
res 51/10:90:17:30:b7/10:02:08:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
Descriptor sense data with sense descriptors (in hex):
72 0b 14 00 00 00 00 0c 00 0a 80 00 00 00 00 00
08 b7 30 17
end_request: I/O error, dev sdb, sector 146223127
printk: 34 messages suppressed.
Buffer I/O error on device dm-8, logical block 18277835
Parece algum erro de software...
mas pouco tempo depois (talvez quando comecei o fsck) seguinte erro:
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
É possível que esses erros também sejam de "software"... quero dizer, este HDD tem apenas 9.000 horas... onde não há carga extra no HDD... a temperatura é de 29 Celsius... Preciso substituir o HDD? ou verificar o disco é suficiente?
EXT3-fs error (device dm-8): ext3_put_super: Couldn't clean up the journal
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/01:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x1 (device error)
ata2.00: status: { DRDY ERR }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
ata2.00: status: { DRDY ERR }
ata2.00: error: { UNC }
ata2.00: configured for UDMA/133
ata2: EH complete
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x4
ata2.00: cmd c8/00:00:8f:0d:84/00:00:00:00:00/e1 tag 0 dma 131072 in
res 51/40:00:a8:0d:84/10:02:08:00:00/e1 Emask 0x9 (media error)
Como descobrir o motivo?
Aqui estão os erros do smart:
Error 36 occurred at disk power-on lifetime: 9160 hours (381 days + 16 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
40 51 00 22 09 80 e3 Error: UNC at LBA = 0x03800922 = 58722594
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
c8 00 08 1f 09 80 03 0a 47d+13:38:13.534 READ DMA
ec 00 00 00 00 00 00 0a 47d+13:38:13.530 IDENTIFY DEVICE
ef 03 46 00 00 00 00 0a 47d+13:38:13.528 SET FEATURES [Set transfer mode]
OK. É possível o seguinte cenário: 1. O disco estava em 9000 sem fsck. 2. Existem alguns erros 3. No dmesg começaram erros como:
ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: BMDMA stat 0x5
ata2.00: cmd 35/00:60:57:7b:b6/00:01:06:00:00/e0 tag 0 dma 180224 out
res 51/10:60:57:7b:b6/10:01:06:00:00/e0 Emask 0x81 (invalid argument)
ata2.00: status: { DRDY ERR }
ata2.00: error: { IDNF }
ata2.00: configured for UDMA/133
sd 1:0:0:0: SCSI error: return code = 0x08000002
sdb: Current [descriptor]: sense key: Aborted Command
Add. Sense: Recorded entity not found
- E erros como erro de inode e assim por diante...
- Tentei desmontar esta partição, e um erro veio do disco rígido, como se ele não conseguisse encontrar esse inode e assim por diante...?
Se sim.. eu não entendo. Preciso trocar de disco todos os anos? Apenas para evitar esse erro? Alguém tem o mesmo problema? Não apenas com um disco...
Responder1
Na minha experiência, os erros que você vê são, na verdade, erros de hardware refletidos no software. A mensagem 'gravação de página perdida devido a erro de E/S' é uma que vi em discos rígidos defeituosos e se comporta de maneira semelhante à descrita ao tentar fsck. Isto é quase definitivamente uma verdadeira falha de hardware.
Você deve verificar a saída do smartctl para ver o que ele diz que pode ser um problema.
smartctl --attributes /dev/sdb
Ele lhe dará uma saída semelhante a esta:
=== INÍCIO DA LEITURA DA SEÇÃO DE DADOS INTELIGENTES === Número de revisão da estrutura de dados de atributos SMART: 16 Atributos SMART específicos do fornecedor com limites: ID# ATTRIBUTE_NAME FLAG VALUE PIOR TIPO DE LIMITE ATUALIZADO WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 200 200 051 Pré-falha Sempre - 0 3 Spin_Up_Time 0x0003 212 186 021 Pré-falha Sempre - 4358 4 Start_Stop_Count 0x0032 100 100 000 Velhice Sempre - 97 5 Reallocated_Sector_Ct 0x0033 200 200 140 Pré-falha Sempre - 0 7 Seek_Error_Rate 0x000f 200 200 051 Pré-falha Sempre - 0 9 Power_On_Hours 0x0032 066 066 000 Old_age Sempre - 25420 10 Spin_Retry_Count 0x0013 100 253 051 Pré-falha Sempre - 0 11 Calibration_Retry_Count 0x0013 100 253 051 Pré-falha Sempre - 0 12 Power_Cycle_Count 0x0032 100 100 000 Velhice Sempre - 86 194 Temperatura_Celsius 0x0022 104 001 000 Velhice Sempre - 46 196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Sempre - 0 197 Current_Pending_Sector 0x0012 200 200 000 Old_age Sempre - 0 198 Offline_Incorrigível 0x0010 200 200 000 Velhice Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Sempre - 0 200 Multi_Zone_Error_Rate 0x0009 200 200 051 Pré-falha offline - 0
A saída pode ser misteriosa, mas aquela em que eu prestaria muita atenção seria Reallocated_Sector_Ct, já que isso informa o que o HD tem para setores defeituosos conhecidos. O comando 'smartctl -a' fornecerá muito mais dados. No HD ruim que tive há algum tempo, a parte inferior dessa saída é o 'SMART Error Log' que tinha algumas entradas.
Responder2
Você teve um erro de leitura incorrigível.
Error: UNC at LBA = 0x03800922 = 58722594
Os dados que estavam nesse bloco foram perdidos.
Você deve:
- estar usando um espelho em primeiro lugar. Na verdade, os discos corporativos devem ficar atrás de um espelho e preferem retornar um erro de leitura do que tentar muito obter os dados.
- recuperar os dados perdidos de backups
Você NÃO tem DESCULPA para não usar RAID (especialmente se você hospeda sites para clientes!) - o sistema operacional não é tão grande, você não precisa de um disco dedicado para isso em um sistema de 2 discos.
Responder3
Você está usando um controlador RAID? Que tipo de controlador você está usando?
Uma das coisas (que é ao mesmo tempo frustrante e esclarecedora) é a crescente segmentação que os fabricantes de HDD estão introduzindo no mercado SATA. Agora existem unidades para 'uso em pequenas empresas/RAID' e 'uso individual/desktop'. O SAS parece ser empurrado para o mercado de “empresas de alto nível”.
Seu modelo nº é a série de unidades RE3 da WD, projetada para configurações RAID. Disseram-me que isso significa, entre outras coisas, que a unidade 'desistirá' mais cedo (ou seja, dentro de 3-4 segundos) ao tentar reparar erros, em vez de tentar repetidamente por um longo período de tempo. Desistir mais cedo reporta o erro ao controlador RAID, para que ele possa usar outra unidade para recuperação. Se, em vez disso, a unidade esperasse mais, o controlador RAID expulsaria a unidade do array por não responder.
As falhas devemaindaser raro e não uma vez por ano. Talvez seja outro aspecto da sua configuração? (Eu tive uma briga frustrante com um cabo SATA uma vez, agora ele está montado na minha porta como um aviso para outros cabos...)
Responder4
Tive uma experiência muito ruim com unidades Western Digital. Mais da metade das minhas unidades tiveram que ser substituídas dentro da garantia devido a falhas completas ou setores defeituosos.
Depois de comprar apenas unidades WD por cerca de 8 anos, não quero mais gastar dinheiro com elas. Não tenho ideia em qual unidade WD posso confiar; minha experiência até agora diz "nenhum deles".
Você substituiu a unidade original 4 vezes; você comprou todas as cinco unidades ao mesmo tempo? Comprar um novo para substituir cada um quando ele falhar? Devolver a unidade na garantia para substituição? Como e quando você adquiriu os cinco drives e quais eram os modelos? Na minha experiência, lotes de unidades WD costumam ser ruins e falhar ao mesmo tempo.