Неправильные показания SMART на одном из элементов массива RAID 1

Неправильные показания SMART на одном из элементов массива RAID 1

Я управляю сервером, который использует 2 nvme ssd в RAID 1. В какой-то момент я потерял доступ к одному из двух и получил от mdadm письма о деградации моего обычного RAID-массива.

Поэтому я попросил хостинговую компанию проверить это, и они сказали, что контакты массива необходимо почистить, чтобы улучшить контакт. Как только они это сделали, устройство подхватило nvme и начало восстанавливать массив.

Когда перестроение закончилось, я зашел и проверил результаты. Так что ssd не новые. Они бывшие в употреблении, так что показания SMART должны это отражать.

когда я пробежал, nvme listто получил следующий результат.

| => nvme list
Node                  SN                   Model                                    Namespace Usage                      Format           FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1          S************1       SAMSUNG MZVKW512HMJP-00000               1          36.70  GB / 512.11  GB    512   B +  0 B   CXA7500Q
/dev/nvme1n1          S************5       SAMSUNG MZVL2512HCJQ-00B00               1         511.95  GB / 512.11  GB    512   B +  0 B   GXA7801Q

Сейчас сервер довольно старый, но я взял его из вторых рук и переформатировал его пару недель назад. Так что сейчас он довольно пустой. 36,7 ГБ на Member 1 в качестве использованного пространства кажутся правильными. Второй участник — тот, который был перестроен. Он сообщает об использовании 511,95 ГБ. Это не имеет смысла на массиве RAID 1 (или имеет?), пожалуйста, поправьте меня, если я ошибаюсь.

Я имею в виду, что система работает просто отлично. Когда я запускаю:

| => cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme1n1p1[2] nvme0n1p1[0]
      33520640 blocks super 1.2 [2/2] [UU]

md1 : active raid1 nvme1n1p2[2] nvme0n1p2[0]
      1046528 blocks super 1.2 [2/2] [UU]

md2 : active raid1 nvme0n1p3[0] nvme1n1p3[1]
      465370432 blocks super 1.2 [2/2] [UU]
      bitmap: 4/4 pages [16KB], 65536KB chunk

unused devices: <none>

Я вижу, что программный RAID-массив работает отлично. Эти два диска должны быть идентичны. Что означает 511.96Gb Usage на 2-м nvme? Это нормально?

Я попытался посмотреть, что сообщит SMARTMONTOOLS, и вот что я получил:

| => smartctl -A /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        31 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    25,639 [13.1 GB]
Data Units Written:                 2,127,320 [1.08 TB]
Host Read Commands:                 101,600
Host Write Commands:                8,203,941
Controller Busy Time:               239
Power Cycles:                       7
Power On Hours:                     26
Unsafe Shutdowns:                   3
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               31 Celsius
Temperature Sensor 2:               31 Celsius

(да, я знаю, время работы составляет 26 часов. Этот nvme совершенно новый. Я получил подтверждение от хостинговой компании.)

Все остальное на диске выглядит просто отлично. Другой диск намного старше, и его отчет smarmontools:

| => smartctl -A /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        27 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    26%
Data Units Read:                    115,783,912 [59.2 TB]
Data Units Written:                 281,087,251 [143 TB]
Host Read Commands:                 1,142,872,239
Host Write Commands:                8,039,604,613
Controller Busy Time:               38,359
Power Cycles:                       519
Power On Hours:                     16,843
Unsafe Shutdowns:                   496
Media and Data Integrity Errors:    0
Error Information Log Entries:      154
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               27 Celsius
Temperature Sensor 2:               33 Celsius

Что тоже, кажется, нормально и ожидаемо. Но по какой-то причине nvme listпоказывает, что использует 512Gb. Как это может быть? Процесс восстановления был не завершен должным образом?

Что вы думаете?

решение1

Теперь я вижу, что у меня тоже получаются такие результаты:

    Node                  SN                   Model                                    Namespace Usage                      Format           FW Rev  
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1          S69xxxxxxxxxxxxx      Samsung SSD 980 PRO 2TB                  1           2.00  TB /   2.00  TB    512   B +  0 B   5B2QGXA7
/dev/nvme1n1          S69xxxxxxxxxxxxx      Samsung SSD 980 PRO 2TB                  1         381.65  GB /   2.00  TB    512   B +  0 B   5B2QGXA7

И mdstat выглядит нормально:

    Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 nvme0n1p2[1] nvme1n1p2[0]
      1952279552 blocks super 1.2 [2/2] [UU]
      bitmap: 2/15 pages [8KB], 65536KB chunk

Кто-нибудь знает, почему так?

Связанный контент