Unregelmäßige SMART-Messwerte auf einem Mitglied eines RAID 1-Arrays

Unregelmäßige SMART-Messwerte auf einem Mitglied eines RAID 1-Arrays

Ich verwalte einen Server, der 2 NVMe-SSDs mit RAID 1-Konnektivität verwendet. Irgendwann verlor ich den Zugriff auf eine der beiden und bekam von mdadm E-Mails mit der Meldung, dass mein normales RAID-Array beeinträchtigt ist.

Also bat ich die Hosting-Firma, dies zu überprüfen, und sie sagten, dass die Kontakte des Arrays gereinigt werden müssten, um einen besseren Kontakt herzustellen. Nachdem sie das getan hatten, erkannte die Maschine das NVMe und begann mit dem Wiederaufbau des Arrays.

Als der Wiederaufbau abgeschlossen war, habe ich die Ergebnisse überprüft. Die SSDs sind also nicht neu. Sie sind gebraucht, daher sollten die SMART-Werte dies widerspiegeln.

beim Ausführen nvme listerhielt ich das folgende Ergebnis.

| => nvme list
Node                  SN                   Model                                    Namespace Usage                      Format           FW Rev
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1          S************1       SAMSUNG MZVKW512HMJP-00000               1          36.70  GB / 512.11  GB    512   B +  0 B   CXA7500Q
/dev/nvme1n1          S************5       SAMSUNG MZVL2512HCJQ-00B00               1         511.95  GB / 512.11  GB    512   B +  0 B   GXA7801Q

Der Server ist zwar ziemlich alt, aber ich habe ihn gebraucht gekauft und vor ein paar Wochen neu formatiert. Er ist also im Moment ziemlich leer. 36,7 GB auf Mitglied 1 als belegter Speicherplatz scheinen richtig zu sein. Das zweite Mitglied ist das, das neu erstellt wurde. Es meldet 511,95 GB belegt. Das ergibt bei einem RAID-1-Array keinen Sinn (oder doch?). Bitte korrigieren Sie mich, wenn ich falsch liege.

Ich meine, das System funktioniert einwandfrei. Wenn ich Folgendes ausführe:

| => cat /proc/mdstat
Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10]
md0 : active raid1 nvme1n1p1[2] nvme0n1p1[0]
      33520640 blocks super 1.2 [2/2] [UU]

md1 : active raid1 nvme1n1p2[2] nvme0n1p2[0]
      1046528 blocks super 1.2 [2/2] [UU]

md2 : active raid1 nvme0n1p3[0] nvme1n1p3[1]
      465370432 blocks super 1.2 [2/2] [UU]
      bitmap: 4/4 pages [16KB], 65536KB chunk

unused devices: <none>

Ich sehe, dass das Software-RAID-Array einwandfrei funktioniert. Diese beiden Laufwerke sollten identisch sein. Was bedeutet die Auslastung von 511,96 GB auf dem zweiten NVMe? Ist das normal?

Ich habe versucht herauszufinden, was SMARTMONTOOLS meldet und habe Folgendes erhalten:

| => smartctl -A /dev/nvme1
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        31 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    25,639 [13.1 GB]
Data Units Written:                 2,127,320 [1.08 TB]
Host Read Commands:                 101,600
Host Write Commands:                8,203,941
Controller Busy Time:               239
Power Cycles:                       7
Power On Hours:                     26
Unsafe Shutdowns:                   3
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               31 Celsius
Temperature Sensor 2:               31 Celsius

(ja, ich weiß, die Betriebsdauer beträgt 26 Stunden. Dieses NVMe ist brandneu. Ich habe eine Bestätigung vom Hosting-Unternehmen erhalten.)

Alles andere auf dem Laufwerk scheint in Ordnung zu sein. Das andere Laufwerk ist viel älter und sein Smarmontools-Bericht lautet:

| => smartctl -A /dev/nvme0
smartctl 7.2 2020-12-30 r5155 [x86_64-linux-5.15.0-52-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        27 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    26%
Data Units Read:                    115,783,912 [59.2 TB]
Data Units Written:                 281,087,251 [143 TB]
Host Read Commands:                 1,142,872,239
Host Write Commands:                8,039,604,613
Controller Busy Time:               38,359
Power Cycles:                       519
Power On Hours:                     16,843
Unsafe Shutdowns:                   496
Media and Data Integrity Errors:    0
Error Information Log Entries:      154
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               27 Celsius
Temperature Sensor 2:               33 Celsius

Das scheint auch in Ordnung und wie erwartet zu sein. Aber aus irgendeinem Grund nvme listwird angezeigt, dass 512 GB verwendet werden. Wie kann das sein? Wurde der Wiederherstellungsprozess nicht ordnungsgemäß abgeschlossen?

Was denken Sie?

Antwort1

Ich sehe jetzt, dass ich auch solche Ergebnisse bekomme:

    Node                  SN                   Model                                    Namespace Usage                      Format           FW Rev  
--------------------- -------------------- ---------------------------------------- --------- -------------------------- ---------------- --------
/dev/nvme0n1          S69xxxxxxxxxxxxx      Samsung SSD 980 PRO 2TB                  1           2.00  TB /   2.00  TB    512   B +  0 B   5B2QGXA7
/dev/nvme1n1          S69xxxxxxxxxxxxx      Samsung SSD 980 PRO 2TB                  1         381.65  GB /   2.00  TB    512   B +  0 B   5B2QGXA7

Und mdstat sieht ok aus:

    Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md0 : active raid1 nvme0n1p2[1] nvme1n1p2[0]
      1952279552 blocks super 1.2 [2/2] [UU]
      bitmap: 2/15 pages [8KB], 65536KB chunk

Weiß jemand, warum das so ist?

verwandte Informationen