RAID6 semi-falha, ainda capaz de copiar dados, mas incrivelmente lento

2024-7-28 • tag-icon

RAID6 semi-falha, ainda capaz de copiar dados, mas incrivelmente lento

Eu tinha um software raid6 de 5 unidades com configuração mdadm (2 unidades de paridade) e uma unidade falhou. Encomendei uma substituição e, quando desliguei a máquina para trocar a unidade com falha por uma nova, OUTRA unidade falhou ao mesmo tempo (completamente morta). Portanto, agora há 3 unidades antigas com dados, 1 nova que está sendo reconstruída e 1 unidade ausente.

Percebi então que a reconstrução estava indo incrivelmente devagar, os dados estavam lidando apenas com cerca de 100 kb/s. As reconstruções anteriores rodariam em torno de 100 MB/s! Decidi comprar um dispositivo Synology com novas unidades e copiar o máximo de dados enquanto ainda pudesse. Ele está funcionando há 2 meses e consegui copiar alguns TB, mas ainda faltam vários TB e, nesse ritmo, levará mais 6 meses até que termine.

Os dados que chegam ao novo NAS (Synology) estão bem, não houve perda de dados até agora! Eu esperava que houvesse algo que eu pudesse fazer para tentar tornar isso mais rápido. Os logs de erros indicam que ele está falhando em uma unidade específica (sdd), mas talvez haja uma configuração que diga para ele "falhar mais rápido" para que ele copie mais rápido, já que na verdade não está falhando? Os registros estão abaixo:

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid6 sdf1[5] sdb1[0] sdc1[1] sdd1[2]
      17581168128 blocks super 1.2 level 6, 512k chunk, algorithm 2 [5/3] [UUU__]
      [>....................]  recovery =  0.4% (24696932/5860389376) finish=584364702.6min speed=0K/sec

unused devices: <none>

final de /var/log/messages

Dec 16 11:29:47 [localhost] kernel: ata4.00: status: { DRDY ERR }
Dec 16 11:29:47 [localhost] kernel: ata4.00: error: { UNC }
Dec 16 11:29:47 [localhost] kernel: ata4: hard resetting link
Dec 16 11:29:47 [localhost] kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Dec 16 11:29:47 [localhost] kernel: ata4.00: configured for UDMA/133
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Sense Key : Medium Error [current] [descriptor]
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Add. Sense: Unrecovered read error - auto reallocate failed
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 CDB: Read(16) 88 00 00 00 00 00 02 87 64 50 00 00 00 40 00 00
Dec 16 11:29:47 [localhost] kernel: blk_update_request: I/O error, dev sdd, sector 42427472
Dec 16 11:29:47 [localhost] kernel: raid5_end_read_request: 5 callbacks suppressed
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425424 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425432 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425440 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425448 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425456 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425464 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425472 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425480 on sdd1).
Dec 16 11:29:47 [localhost] kernel: ata4: EH complete
Dec 16 11:29:51 [localhost] kernel: ata4.00: exception Emask 0x0 SAct 0x10000000 SErr 0x0 action 0x0
Dec 16 11:29:51 [localhost] kernel: ata4.00: irq_stat 0x40000008
Dec 16 11:29:51 [localhost] kernel: ata4.00: failed command: READ FPDMA QUEUED
Dec 16 11:29:51 [localhost] kernel: ata4.00: cmd 60/38:e0:30:b8:f5/00:00:02:00:00/40 tag 28 ncq 28672 in#012         res 41/40:00:30:b8:f5/00:00:02:00:00/00 Emask 0x409 (media error) <F>

Responder1

Portanto, existem vários posts sobre superusuário semelhantes a este e todos estão sem resposta. É porque você deve usar o ddrescue para corrigir o volume primeiro, então o rsync ficará bem.

https://raid.wiki.kernel.org/index.php/Recovering_a_failed_software_RAID

Responder1

informação relacionada