Teilweise ausgefallenes RAID6, kann immer noch Daten kopieren, ist aber unglaublich langsam

Teilweise ausgefallenes RAID6, kann immer noch Daten kopieren, ist aber unglaublich langsam

Ich hatte ein 5-Laufwerke-Software-RAID6 mit mdadm-Setup (2 Paritätslaufwerke) und ein Laufwerk ist ausgefallen. Ich habe ein Ersatzlaufwerk bestellt und als ich die Maschine ausschaltete, um das ausgefallene Laufwerk durch ein neues zu ersetzen, ist gleichzeitig EIN ANDERES Laufwerk ausgefallen (komplett tot). Jetzt sind also 3 der alten Laufwerke mit Daten, 1 neues, das neu aufgebaut wird, und 1 fehlendes Laufwerk vorhanden.

Dann fiel mir auf, dass die Wiederherstellung unglaublich langsam verlief, die Daten wurden nur mit etwa 100 kb/s verarbeitet. Frühere Wiederherstellungen liefen mit etwa 100 MB/s! Ich beschloss, ein Synology-Gerät mit neuen Laufwerken zu kaufen und so viele Daten wie möglich zu kopieren. Es läuft jetzt seit 2 Monaten und ich konnte einige TB kopieren, aber es fehlen noch mehrere TB und bei dieser Geschwindigkeit wird es noch 6 Monate dauern, bis es fertig ist.

Die Daten, die auf das neue NAS (Synology) kommen, sind in Ordnung, bisher sind keine Daten verloren gegangen! Ich hatte gehofft, dass ich etwas tun könnte, um es schneller zu machen. Die Fehlerprotokolle zeigen an, dass ein bestimmtes Laufwerk (SDD) ausfällt, aber vielleicht gibt es eine Einstellung, die es anweist, „schneller auszufallen“, sodass es schneller kopiert, da es nicht wirklich ausfällt? Die Protokolle finden Sie unten:

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid6 sdf1[5] sdb1[0] sdc1[1] sdd1[2]
      17581168128 blocks super 1.2 level 6, 512k chunk, algorithm 2 [5/3] [UUU__]
      [>....................]  recovery =  0.4% (24696932/5860389376) finish=584364702.6min speed=0K/sec

unused devices: <none>

Ende von /var/log/messages

Dec 16 11:29:47 [localhost] kernel: ata4.00: status: { DRDY ERR }
Dec 16 11:29:47 [localhost] kernel: ata4.00: error: { UNC }
Dec 16 11:29:47 [localhost] kernel: ata4: hard resetting link
Dec 16 11:29:47 [localhost] kernel: ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Dec 16 11:29:47 [localhost] kernel: ata4.00: configured for UDMA/133
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Sense Key : Medium Error [current] [descriptor]
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 Add. Sense: Unrecovered read error - auto reallocate failed
Dec 16 11:29:47 [localhost] kernel: sd 3:0:0:0: [sdd] tag#24 CDB: Read(16) 88 00 00 00 00 00 02 87 64 50 00 00 00 40 00 00
Dec 16 11:29:47 [localhost] kernel: blk_update_request: I/O error, dev sdd, sector 42427472
Dec 16 11:29:47 [localhost] kernel: raid5_end_read_request: 5 callbacks suppressed
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425424 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425432 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425440 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425448 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425456 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425464 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425472 on sdd1).
Dec 16 11:29:47 [localhost] kernel: md/raid:md0: read error not correctable (sector 42425480 on sdd1).
Dec 16 11:29:47 [localhost] kernel: ata4: EH complete
Dec 16 11:29:51 [localhost] kernel: ata4.00: exception Emask 0x0 SAct 0x10000000 SErr 0x0 action 0x0
Dec 16 11:29:51 [localhost] kernel: ata4.00: irq_stat 0x40000008
Dec 16 11:29:51 [localhost] kernel: ata4.00: failed command: READ FPDMA QUEUED
Dec 16 11:29:51 [localhost] kernel: ata4.00: cmd 60/38:e0:30:b8:f5/00:00:02:00:00/40 tag 28 ncq 28672 in#012         res 41/40:00:30:b8:f5/00:00:02:00:00/00 Emask 0x409 (media error) <F>

Antwort1

Es gibt also mehrere Beiträge auf Superuser, die diesem ähnlich sind und alle unbeantwortet sind. Das liegt daran, dass Sie stattdessen zuerst ddrescue verwenden sollten, um das Volume zu reparieren, dann wird rsync funktionieren.

https://raid.wiki.kernel.org/index.php/Wiederherstellen_eines_ausgefallenen_Software-RAID

verwandte Informationen