NVMe SSD가 갑자기 비현실적으로 느려졌습니다(읽기 및 쓰기 모두).

2024-9-9 • tag-icon

NVMe SSD가 갑자기 비현실적으로 느려졌습니다(읽기 및 쓰기 모두).

업데이트 1: 이 서버를 HDD에 설치된 다른 Ubuntu(또한 20.04 LTS)로 재부팅했는데 hdparm -tT1GB/s 이상의 적당한 성능을 보여줍니다. 이제 나는 이것이 소프트웨어 문제라고 믿고 싶습니다. SSD 자체는 괜찮을 것입니다.

업데이트 2: 혼란스럽게도 atop이상한 디스크 활동은 표시되지 않지만 디스크는 여전히 "매우 활동적"입니다. 많은 z_wr_iss스레드가 가끔씩 무작위로 나타납니다.

개인용 서버로 24시간 운영되는 데스크탑 컴퓨터에 설치된 HP SSD EX920 1TB입니다. 1년 넘게 잘 작동했는데, 지난주에만 그랬어요.갑자기, 프로세스가 무작위로 D(무중단 절전 모드)로 전환되기 시작했습니다. 이 드라이브는 절반만 채워져 있으며 정기적으로 정리됩니다.

HDparm 테스트 결과가 말도 안 돼요( /dev/nvme0문제의 SSD인지, /dev/sda또 다른 HDD인지)(밝히다: HDparm 프로그램은 정상이고 오작동하지 않습니다. SSD 자체의 성능은 몇 MB/s에 불과합니다.

root@ubuntu:~# hdparm -Tt /dev/nvme0n1
/dev/nvme0n1:
 Timing cached reads:   15670 MB in  2.00 seconds = 7839.79 MB/sec
 HDIO_DRIVE_CMD(identify) failed: Inappropriate ioctl for device
 Timing buffered disk reads:   8 MB in  3.61 seconds =   2.22 MB/sec

root@ubuntu:~# hdparm -Tt /dev/sda
/dev/sda:
 Timing cached reads:   29014 MB in  2.00 seconds = 14525.03 MB/sec
 Timing buffered disk reads: 454 MB in  3.01 seconds = 150.67 MB/sec

그러나 SMART 정보는 괜찮아 보입니다.

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-56-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       HP SSD EX920 1TB
Serial Number:                      xxxxxxxxxxxxxxx
Firmware Version:                   SVN139B
PCI Vendor ID:                      0x1dee
PCI Vendor Subsystem ID:            0x126f
IEEE OUI Identifier:                0x000000
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Formatted LBA Size:     512
Local Time is:                      Mon Dec  7 13:54:15 2020 CST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0016):   Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     70 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4     6000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        54 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    31,682,199 [16.2 TB]
Data Units Written:                 50,028,403 [25.6 TB]
Host Read Commands:                 538,395,033
Host Write Commands:                1,279,795,487
Controller Busy Time:               20,480
Power Cycles:                       1,012
Power On Hours:                     7,879
Unsafe Shutdowns:                   40
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    7
Critical Comp. Temperature Time:    0
Thermal Temp. 1 Transition Count:   8
Thermal Temp. 2 Transition Count:   2
Thermal Temp. 1 Total Time:         1118
Thermal Temp. 2 Total Time:         214

Error Information (NVMe Log 0x01, max 256 entries)
No Errors Logged

이 NVMe SSD에서 APM 정보( )에 액세스하려고 하면 hdparm -B"장치에 부적절한 ioctl"만 표시됩니다.

게다가 나는~ 아니다손상된 데이터(모두 손상되지 않음)를 발견했지만 읽기/쓰기 속도가 비합리적으로 느렸습니다.

드라이브에는 EFI 시스템 파티션(수백 MiB), 루트 파일 시스템인 ext4 파티션(128GiB), 나머지는 ZFS로 이동하는 세 개의 파티션이 있습니다. 개별 파티션에서 실행하면 hdparm -tT비슷한 결과가 나타납니다(읽기 속도가 10MB/s 미만). 이러한 파티션은 모두 1MiB 경계로 정렬됩니다.

이 SSD의 "정상" 속도를 복원하려면 다음에 무엇을 해야 합니까? 아니면 교체품을 받아야 할까요?

답변1

nvme 드라이브이므로 APM 설정과 ioctl이 작동하지 않는 이유를 확인하려면 nvme-cli를 설치해야 할 수 있습니다. z_wr_iss 스레드는 Linux 쓰기 스레드의 ZFS입니다. 버퍼링된 읽기는 매우 느립니다. 시스템의 메모리가 느릴 수도 있습니다. 아니면 ZFS 튜닝 문제일 수도 있습니다.

답변1

관련 정보