
Это система Linux Mint 21.1 x64, в которой на протяжении многих лет диски добавлялись в RAID-массивы, пока у нас не появился один массив из 10 3 ТБ и один массив из 5 6 ТБ. Четыре жестких диска вышли из массивов, по два из каждого, по-видимому, из-за отказа одного контроллера. Мы заменили контроллеры, но это не восстановило работу массивов. mdadm --assemble
сообщает о невозможности запустить ни один из массивов, недостаточном количестве дисков (два отказали в каждом, я не удивлен); mdadm --run
сообщает об ошибке ввода-вывода (системный журнал, похоже, предполагает, что это связано с тем, что он не может запустить все диски, но нет никаких указаний на то, что он пытался запустить два явно неудачных), но я все еще могу mdadm --examine
вывести из строя диски, и они выглядят абсолютно нормально. Вот вывод с работающего диска:
mdadm --examine /dev/sda
/dev/sda:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 6e072616:2f7079b0:b336c1a7:f222c711
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:30:27 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : 2faf0b93 - correct
Events : 21397
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 9
Array State : AAAAAA..AA ('A' == active, '.' == missing, 'R' == replacing)
А вот вывод с неисправного диска:
mdadm --examine /dev/sdk
/dev/sdk:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : d62b85bc:fb108c56:4710850c:477c0c06
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : d53202fe - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 6
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
Редактировать: Вот отчет --examine со второго неисправного диска; как вы можете видеть, он вышел из строя одновременно с отключением всего массива.
# mdadm --examine /dev/sdl
/dev/sdl:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x1
Array UUID : 829c0c49:033a810b:7f5bb415:913c91ed
Name : DataBackup:back (local to host DataBackup)
Creation Time : Mon Feb 15 13:43:15 2021
Raid Level : raid5
Raid Devices : 10
Avail Dev Size : 5860268976 sectors (2.73 TiB 3.00 TB)
Array Size : 26371206144 KiB (24.56 TiB 27.00 TB)
Used Dev Size : 5860268032 sectors (2.73 TiB 3.00 TB)
Data Offset : 264192 sectors
Super Offset : 8 sectors
Unused Space : before=264112 sectors, after=944 sectors
State : clean
Device UUID : 35ebf7d9:55148a4a:e190671d:6db1c2cf
Internal Bitmap : 8 sectors from superblock
Update Time : Sun Apr 2 04:27:31 2023
Bad Block Log : 512 entries available at offset 24 sectors
Checksum : c13b7b79 - correct
Events : 21392
Layout : left-symmetric
Chunk Size : 512K
Device Role : Active device 7
Array State : AAAAAAAAAA ('A' == active, '.' == missing, 'R' == replacing)
Второй массив, 5x6TB, отключился через две минуты, когда отказали два диска. Два отказавших диска в этом массиве и два в другом массиве, все подключены к одной 4-портовой карте контроллера SATA, которая, конечно, теперь заменена.
Главное, что я нахожу интересным в этом, это то, что отказавший диск, похоже, сообщает о себе как о живом, но mdadm
не соглашается с этим. journalctl
не похоже, что он был 2 апреля, так что я не смогу узнать, что произошло. Есть у кого-нибудь идеи, что я могу сделать, чтобы вернуть этого зверя в строй?
решение1
- Всегда делайте резервные копии на уровне образа всех дисков в массиве, прежде чем пытаться выполнять потенциально разрушительные
mdadm
команды. Имея эти резервные копии под рукой, вы можете позже попытаться выполнить восстановление на виртуальной машине нестандартно. - Проверьте
Update time
поле in для отказавших дисков в выходных данных,mdadm --examine /dev/sdX
чтобы определить точную последовательность событий, когда диски выпадали из массива. Иногда первый отказ диска остается незамеченным, и включение этого старого диска в оперативный режим приведет к катастрофическому сбою при попытке монтирования файловой системы. - В вашем случае оба диска вышли из строя одновременно, поэтому можно безопасно принудительно перевести массив в режим онлайн с помощью
mdadm --assemble --force /dev/mdX
илиmdadm --assemble --force --scan
. Если это не так, следует принудительно перевести в режим онлайн только последний диск, который вышел из массива, указав диски-члены массива дляmdadm --assemble --force /dev/mdX /dev/sda /dev/sdb missing /dev/sdd
, обратите внимание, что порядок дисков важен. - Поскольку вы смогли запустить все только с явным списком устройств,
assemble
я считаю, что ваш массив в настоящее время находится в деградированном состоянии с пометкой «/dev/sdh
офлайн». Посмотрите на вывод,cat /proc/mdstat
чтобы определить это, сделайте резервную копию, устраните неполадки в вашем оборудовании и полностью перестройте ваш массив после этого.