
我正在管理一台在 RAID 1 連線上使用 2 個 nvme SSD 的伺服器。我立刻失去了對其中兩個的存取權限,並從 mdadm 收到了正常的 raid 陣列降級郵件。
因此,我要求託管公司檢查一下,他們說陣列的觸點需要清潔以實現更好的接觸,一旦他們這樣做,機器就會拾取 nvme 並開始重建陣列。
重建完成後,我進去檢查結果。所以SSD並不是什麼新鮮事。使用它們是為了讓 SMART 讀數能夠反映這一點。
當我運行時,nvme list
我得到以下結果。
| => nvme list
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S************1 SAMSUNG MZVKW512HMJP-00000 1 36.70 GB / 512.11 GB 512 B + 0 B CXA7500Q
/dev/nvme1n1 S************5 SAMSUNG MZVL2512HCJQ-00B00 1 511.95 GB / 512.11 GB 512 B + 0 B GXA7801Q
現在伺服器已經很舊了,但我是二手的,幾週前重新格式化了它。所以現在很空。會員 1 上的 36.7GB 作為已用空間似乎是正確的。第二個成員是重建的成員。它報告已使用 511.95Gb。這對 raid 1 陣列沒有意義(或者確實如此?)如果我錯了,請糾正我。
我的意思是,系統運作得很好。當我跑步時:
| => cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme1n1p1[2] nvme0n1p1[0]
33520640 blocks super 1.2 [2/2] [UU]
md1 : active raid1 nvme1n1p2[2] nvme0n1p2[0]
1046528 blocks super 1.2 [2/2] [UU]
md2 : active raid1 nvme0n1p3[0] nvme1n1p3[1]
465370432 blocks super 1.2 [2/2] [UU]
bitmap: 4/4 pages [16KB], 65536KB chunk
unused devices: <none>
我發現軟體 raid 陣列運作得很好。這兩個驅動器應該是相同的。第二個 NVME 上的 511.96Gb 使用量代表什麼?正常嗎?
我試圖查看 SMARTMONTOOLS 會報告什麼,我得到了:
| => smartctl -A /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 31 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 25,639 [13.1 GB]
Data Units Written: 2,127,320 [1.08 TB]
Host Read Commands: 101,600
Host Write Commands: 8,203,941
Controller Busy Time: 239
Power Cycles: 7
Power On Hours: 26
Unsafe Shutdowns: 3
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 31 Celsius
Temperature Sensor 2: 31 Celsius
(是的,我知道,開機時間是 26。這個 NVME 是全新的。我得到了託管公司的確認。)
驅動器上的其他一切似乎都很好。另一個驅動器更舊,它的 smarmontools 報告是:
| => smartctl -A /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 27 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 26%
Data Units Read: 115,783,912 [59.2 TB]
Data Units Written: 281,087,251 [143 TB]
Host Read Commands: 1,142,872,239
Host Write Commands: 8,039,604,613
Controller Busy Time: 38,359
Power Cycles: 519
Power On Hours: 16,843
Unsafe Shutdowns: 496
Media and Data Integrity Errors: 0
Error Information Log Entries: 154
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 27 Celsius
Temperature Sensor 2: 33 Celsius
這似乎也很好並且符合預期。但由於某種原因nvme list
顯示它正在使用 512Gb。怎麼會這樣呢?重建過程沒有正確完成嗎?
你怎麼認為?
答案1
我現在看到我也得到這樣的結果:
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 2.00 TB / 2.00 TB 512 B + 0 B 5B2QGXA7
/dev/nvme1n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 381.65 GB / 2.00 TB 512 B + 0 B 5B2QGXA7
mdstat 看起來不錯:
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme0n1p2[1] nvme1n1p2[0]
1952279552 blocks super 1.2 [2/2] [UU]
bitmap: 2/15 pages [8KB], 65536KB chunk
有人知道這是為什麼嗎?