
私は、RAID 1 接続で 2 つの NVMe SSD を使用するサーバーを管理しています。ある時点で、2 つのうちの 1 つにアクセスできなくなり、mdadm から通常の RAID アレイが劣化したというメールを受け取りました。
そこでホスティング会社に確認を依頼したところ、アレイの接点をクリーニングして接触を改善する必要があると言われ、それを実行するとマシンが NVME を取得し、アレイの再構築を開始しました。
再構築が完了したら、結果を確認しました。SSD は新品ではありません。中古品なので、SMART の読み取り値はこれを反映しているはずです。
実行するとnvme list
次の結果が得られました。
| => nvme list
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S************1 SAMSUNG MZVKW512HMJP-00000 1 36.70 GB / 512.11 GB 512 B + 0 B CXA7500Q
/dev/nvme1n1 S************5 SAMSUNG MZVL2512HCJQ-00B00 1 511.95 GB / 512.11 GB 512 B + 0 B GXA7801Q
サーバーはかなり古いですが、中古で入手し、数週間前に再フォーマットしました。そのため、現在はかなり空です。メンバー 1 の使用済みスペースが 36.7 GB というのは正しいようです。2 番目のメンバーは再構築されたものです。使用済みが 511.95 GB と報告されています。これは RAID 1 アレイでは意味がありません (意味があるのでしょうか?)。間違っていたら訂正してください。
つまり、システムは正常に動作します。以下を実行すると、
| => cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme1n1p1[2] nvme0n1p1[0]
33520640 blocks super 1.2 [2/2] [UU]
md1 : active raid1 nvme1n1p2[2] nvme0n1p2[0]
1046528 blocks super 1.2 [2/2] [UU]
md2 : active raid1 nvme0n1p3[0] nvme1n1p3[1]
465370432 blocks super 1.2 [2/2] [UU]
bitmap: 4/4 pages [16KB], 65536KB chunk
unused devices: <none>
ソフトウェア RAID アレイは正常に動作しているようです。これら 2 つのドライブは同一であるはずです。2 番目の NVMe の 511.96Gb の使用量はどういう意味ですか? これは正常ですか?
SMARTMONTOOLS が何を報告するか確認してみたところ、次の結果が得られました:
| => smartctl -A /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 31 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 25,639 [13.1 GB]
Data Units Written: 2,127,320 [1.08 TB]
Host Read Commands: 101,600
Host Write Commands: 8,203,941
Controller Busy Time: 239
Power Cycles: 7
Power On Hours: 26
Unsafe Shutdowns: 3
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 31 Celsius
Temperature Sensor 2: 31 Celsius
(はい、知っています。通電時間は 26 時間です。この NVME は新品です。ホスティング会社から確認を得ました。)
ドライブ上の他の部分はまったく問題ないようです。もう 1 つのドライブはかなり古く、smarmontools レポートは次のようになっています。
| => smartctl -A /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 27 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 26%
Data Units Read: 115,783,912 [59.2 TB]
Data Units Written: 281,087,251 [143 TB]
Host Read Commands: 1,142,872,239
Host Write Commands: 8,039,604,613
Controller Busy Time: 38,359
Power Cycles: 519
Power On Hours: 16,843
Unsafe Shutdowns: 496
Media and Data Integrity Errors: 0
Error Information Log Entries: 154
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 27 Celsius
Temperature Sensor 2: 33 Celsius
これも問題なく、予想通りのようです。しかし、何らかの理由でnvme list
512Gb を使用していると表示されます。どうしてそうなるのでしょうか? 再構築プロセスが適切に完了しなかったのでしょうか?
どう思いますか?
答え1
次のような結果も得られることがわかりました:
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 2.00 TB / 2.00 TB 512 B + 0 B 5B2QGXA7
/dev/nvme1n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 381.65 GB / 2.00 TB 512 B + 0 B 5B2QGXA7
mdstat は問題なさそうです:
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme0n1p2[1] nvme1n1p2[0]
1952279552 blocks super 1.2 [2/2] [UU]
bitmap: 2/15 pages [8KB], 65536KB chunk
なぜそうなるのか誰か知っていますか?