NVMe SSD внезапно стал непрактично медленным (как чтение, так и запись)

NVMe SSD внезапно стал непрактично медленным (как чтение, так и запись)

Обновление 1: Я перезагрузил этот сервер в другую Ubuntu (также 20.04 LTS), установленную на HDD, и hdparm -tTпоказал приемлемую производительность более 1 ГБ/с. Теперь я склонен полагать, что это программная проблема - сам SSD должен быть в порядке.

Обновление 2: Сбивает с толку, не показывает никакой странной активности диска, хотя диск все еще "очень активен". Время от времени появляется atopмножество потоков случайным образом.z_wr_iss

на вершине


Это HP SSD EX920 1TB, установленный на настольном компьютере, работающем 24/7 как персональный сервер. Он хорошо работал больше года, и только на прошлой неделе,внезапно, процессы начали уходить в режим D (непрерываемый сон) случайным образом. Этот диск заполнен только наполовину и регулярно обрезается.

Результаты тестирования HDparm смехотворны ( /dev/nvme0это SSD, о котором идет речь, /dev/sdaили другой HDD) (Объяснить: Программа HDparm в порядке и не дает сбоев, производительность самого SSD недостаточна и составляет всего несколько МБ/с):

root@ubuntu:~# hdparm -Tt /dev/nvme0n1
/dev/nvme0n1:
 Timing cached reads:   15670 MB in  2.00 seconds = 7839.79 MB/sec
 HDIO_DRIVE_CMD(identify) failed: Inappropriate ioctl for device
 Timing buffered disk reads:   8 MB in  3.61 seconds =   2.22 MB/sec

root@ubuntu:~# hdparm -Tt /dev/sda
/dev/sda:
 Timing cached reads:   29014 MB in  2.00 seconds = 14525.03 MB/sec
 Timing buffered disk reads: 454 MB in  3.01 seconds = 150.67 MB/sec

Однако информация SMART выглядит нормально:

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-56-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       HP SSD EX920 1TB
Serial Number:                      xxxxxxxxxxxxxxx
Firmware Version:                   SVN139B
PCI Vendor ID:                      0x1dee
PCI Vendor Subsystem ID:            0x126f
IEEE OUI Identifier:                0x000000
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Dec  7 13:54:15 2020 CST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0016):   Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     70 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4     6000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        54 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    31,682,199 [16.2 TB]
Data Units Written:                 50,028,403 [25.6 TB]
Host Read Commands:                 538,395,033
Host Write Commands:                1,279,795,487
Controller Busy Time:               20,480
Power Cycles:                       1,012
Power On Hours:                     7,879
Unsafe Shutdowns:                   40
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    7
Critical Comp. Temperature Time:    0
Thermal Temp. 1 Transition Count:   8
Thermal Temp. 2 Transition Count:   2
Thermal Temp. 1 Total Time:         1118
Thermal Temp. 2 Total Time:         214

Error Information (NVMe Log 0x01, max 256 entries)
No Errors Logged

Попытка получить доступ к информации APM ( hdparm -B) на этом NVMe SSD выдает только «Неподходящий ioctl для устройства».

Кроме того, у меня естьнетобнаружил какие-либо поврежденные данные (все целы), только неоправданно низкую скорость чтения/записи.

На диске три раздела: системный раздел EFI (несколько сотен МиБ), раздел ext4 как корневая файловая система (128 ГиБ), а остальное — ZFS. Запуск hdparm -tTна отдельных разделах дает схожие результаты (скорость чтения менее 10 МБ/с). Все эти разделы выровнены по границам 1 МиБ.

Что мне делать дальше, чтобы восстановить "нормальную" скорость этого SSD? Или мне следует заменить его?

решение1

Это диск nvme, вам, вероятно, нужно установить nvme-cli, чтобы проверить настройки APM и причину, по которой ioctl не сработал. Потоки z_wr_iss — это потоки записи ZFS в Linux. Эти буферизованные чтения очень медленные, может быть, память в вашей системе медленная? Или, возможно, это проблема настройки ZFS.

Связанный контент