
Ich verwalte einen Server, der 2 NVMe-SSDs mit RAID 1-Konnektivität verwendet. Irgendwann verlor ich den Zugriff auf eine der beiden und bekam von mdadm E-Mails mit der Meldung, dass mein normales RAID-Array beeinträchtigt ist.
Also bat ich die Hosting-Firma, dies zu überprüfen, und sie sagten, dass die Kontakte des Arrays gereinigt werden müssten, um einen besseren Kontakt herzustellen. Nachdem sie das getan hatten, erkannte die Maschine das NVMe und begann mit dem Wiederaufbau des Arrays.
Als der Wiederaufbau abgeschlossen war, habe ich die Ergebnisse überprüft. Die SSDs sind also nicht neu. Sie sind gebraucht, daher sollten die SMART-Werte dies widerspiegeln.
beim Ausführen nvme list
erhielt ich das folgende Ergebnis.
| => nvme list
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S************1 SAMSUNG MZVKW512HMJP-00000 1 36.70 GB / 512.11 GB 512 B + 0 B CXA7500Q
/dev/nvme1n1 S************5 SAMSUNG MZVL2512HCJQ-00B00 1 511.95 GB / 512.11 GB 512 B + 0 B GXA7801Q
Der Server ist zwar ziemlich alt, aber ich habe ihn gebraucht gekauft und vor ein paar Wochen neu formatiert. Er ist also im Moment ziemlich leer. 36,7 GB auf Mitglied 1 als belegter Speicherplatz scheinen richtig zu sein. Das zweite Mitglied ist das, das neu erstellt wurde. Es meldet 511,95 GB belegt. Das ergibt bei einem RAID-1-Array keinen Sinn (oder doch?). Bitte korrigieren Sie mich, wenn ich falsch liege.
Ich meine, das System funktioniert einwandfrei. Wenn ich Folgendes ausführe:
| => cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme1n1p1[2] nvme0n1p1[0]
33520640 blocks super 1.2 [2/2] [UU]
md1 : active raid1 nvme1n1p2[2] nvme0n1p2[0]
1046528 blocks super 1.2 [2/2] [UU]
md2 : active raid1 nvme0n1p3[0] nvme1n1p3[1]
465370432 blocks super 1.2 [2/2] [UU]
bitmap: 4/4 pages [16KB], 65536KB chunk
unused devices: <none>
Ich sehe, dass das Software-RAID-Array einwandfrei funktioniert. Diese beiden Laufwerke sollten identisch sein. Was bedeutet die Auslastung von 511,96 GB auf dem zweiten NVMe? Ist das normal?
Ich habe versucht herauszufinden, was SMARTMONTOOLS meldet und habe Folgendes erhalten:
| => smartctl -A /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 31 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 0%
Data Units Read: 25,639 [13.1 GB]
Data Units Written: 2,127,320 [1.08 TB]
Host Read Commands: 101,600
Host Write Commands: 8,203,941
Controller Busy Time: 239
Power Cycles: 7
Power On Hours: 26
Unsafe Shutdowns: 3
Media and Data Integrity Errors: 0
Error Information Log Entries: 0
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 31 Celsius
Temperature Sensor 2: 31 Celsius
(ja, ich weiß, die Betriebsdauer beträgt 26 Stunden. Dieses NVMe ist brandneu. Ich habe eine Bestätigung vom Hosting-Unternehmen erhalten.)
Alles andere auf dem Laufwerk scheint in Ordnung zu sein. Das andere Laufwerk ist viel älter und sein Smarmontools-Bericht lautet:
| => smartctl -A /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x00
Temperature: 27 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 26%
Data Units Read: 115,783,912 [59.2 TB]
Data Units Written: 281,087,251 [143 TB]
Host Read Commands: 1,142,872,239
Host Write Commands: 8,039,604,613
Controller Busy Time: 38,359
Power Cycles: 519
Power On Hours: 16,843
Unsafe Shutdowns: 496
Media and Data Integrity Errors: 0
Error Information Log Entries: 154
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 27 Celsius
Temperature Sensor 2: 33 Celsius
Das scheint auch in Ordnung und wie erwartet zu sein. Aber aus irgendeinem Grund nvme list
wird angezeigt, dass 512 GB verwendet werden. Wie kann das sein? Wurde der Wiederherstellungsprozess nicht ordnungsgemäß abgeschlossen?
Was denken Sie?
Antwort1
Ich sehe jetzt, dass ich auch solche Ergebnisse bekomme:
Node SN Model Namespace Usage Format FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 2.00 TB / 2.00 TB 512 B + 0 B 5B2QGXA7
/dev/nvme1n1 S69xxxxxxxxxxxxx Samsung SSD 980 PRO 2TB 1 381.65 GB / 2.00 TB 512 B + 0 B 5B2QGXA7
Und mdstat sieht ok aus:
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme0n1p2[1] nvme1n1p2[0]
1952279552 blocks super 1.2 [2/2] [UU]
bitmap: 2/15 pages [8KB], 65536KB chunk
Weiß jemand, warum das so ist?