RAID6 semifallido, aún capaz de copiar datos pero increíblemente lento

2024-7-28 • tag-icon

RAID6 semifallido, aún capaz de copiar datos pero increíblemente lento

Tenía un software raid6 de 5 unidades con configuración mdadm (2 unidades de paridad) y una unidad falló. Pedí un reemplazo y cuando apagué la máquina para cambiar la unidad defectuosa por una nueva, OTRA unidad falló al mismo tiempo (completamente muerta). Ahora hay 3 de las unidades antiguas con datos, 1 nueva que se está reconstruyendo y 1 unidad faltante.

Luego noté que la reconstrucción iba increíblemente lenta, los datos solo soportaban alrededor de 100 kb/s. ¡Las reconstrucciones anteriores funcionarían alrededor de 100 MB/s! Decidí comprar un dispositivo Synology con unidades nuevas y copiar la mayor cantidad de datos mientras pudiera. Ha estado funcionando durante 2 meses y he podido copiar algunos TB, pero todavía quedan varios TB y, a este ritmo, pasarán otros 6 meses antes de que termine.

Los datos que llegan al nuevo NAS (Synology) están bien, ¡hasta ahora no hay pérdida de datos! Esperaba que hubiera algo que pudiera hacer para intentar que fuera más rápido. Los registros de errores indican que está fallando en una unidad específica (sdd), pero tal vez haya una configuración que le indique "fallar más rápido" para que copie más rápido, ya que en realidad no está fallando. Los registros están a continuación:

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid6 sdf1[5] sdb1[0] sdc1[1] sdd1[2]
      17581168128 blocks super 1.2 level 6, 512k chunk, algorithm 2 [5/3] [UUU__]
      [>....................]  recovery =  0.4% (24696932/5860389376) finish=584364702.6min speed=0K/sec

unused devices: <none>

cola de /var/log/messages

Dec 16 11:29:47 [localhost] kernel: ata4.00: status: { DRDY ERR }
Dec 16 11:29:47 [localhost] kernel: ata4.00: error: { UNC }
Dec 16 11:29:47 [localhost] kernel: ata4: hard resetting link
Dec 16 11:29:47 [localhost] kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Dec 16 11:29:47 [localhost] kernel: ata4.00: configured for UDMA/133
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Sense Key : Medium Error [current] [descriptor]
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Add. Sense: Unrecovered read error - auto reallocate failed
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 CDB: Read(16) 88 00 00 00 00 00 02 87 64 50 00 00 00 40 00 00
Dec 16 11:29:47 [localhost] kernel: blk_update_request: I/O error, dev sdd, sector 42427472
Dec 16 11:29:47 [localhost] kernel: raid5_end_read_request: 5 callbacks suppressed
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425424 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425432 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425440 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425448 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425456 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425464 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425472 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425480 on sdd1).
Dec 16 11:29:47 [localhost] kernel: ata4: EH complete
Dec 16 11:29:51 [localhost] kernel: ata4.00: exception Emask 0x0 SAct 0x10000000 SErr 0x0 action 0x0
Dec 16 11:29:51 [localhost] kernel: ata4.00: irq_stat 0x40000008
Dec 16 11:29:51 [localhost] kernel: ata4.00: failed command: READ FPDMA QUEUED
Dec 16 11:29:51 [localhost] kernel: ata4.00: cmd 60/38:e0:30:b8:f5/00:00:02:00:00/40 tag 28 ncq 28672 in#012         res 41/40:00:30:b8:f5/00:00:02:00:00/00 Emask 0x409 (media error) <F>

Respuesta1

Entonces, hay varias publicaciones sobre superusuario que son similares a esta y todas están sin respuesta. Es porque primero deberías usar ddrescue para arreglar el volumen, luego rsync estará bien.

https://raid.wiki.kernel.org/index.php/Recovering_a_failed_software_RAID

Respuesta1

información relacionada