RAS를 확인하기 위해 amd64_edac_mod.ko(오류 감지 및 수정 드라이버)가 최신 커널로 로드되지 않습니다.

RAS를 확인하기 위해 amd64_edac_mod.ko(오류 감지 및 수정 드라이버)가 최신 커널로 로드되지 않습니다.

RAS 기능을 확인하기 위해 ECC를 활성화하려고 합니다.우분투-18.04

GIGABYTE BIOS 모드입니다. ECC 옵션을 확인했지만 존재하지 않습니다. 서버의 세부 사항은 다음과 같습니다


:~$ lscpu
Architecture:        x86_64
CPU op-mode(s):      32-bit, 64-bit
Byte Order:          Little Endian
CPU(s):              64
On-line CPU(s) list: 0-63
Thread(s) per core:  2
Core(s) per socket:  32
Socket(s):           1
NUMA node(s):        4
Vendor ID:           AuthenticAMD
CPU family:          23
Model:               8
Model name:          AMD Ryzen Threadripper 2990WX 32-Core Processor
Stepping:            2
CPU MHz:             1715.339
...

ECC 검사를 위한 AMD64 EDAC 드라이버 최신 커널 "5.3.0-rc1"을 복제하고 EDAC 관련 구성을 활성화하고 데비안을 컴파일 및 생성했습니다.

ubutnu18.04에 커널 이미지와 헤더 데비안을 설치했습니다.

부팅 후 edac 모듈을 나열할 수 없습니다amd64_edac_mod.ko"lsmod"에서

:~$ lsmod | grep edac
edac_mce_amd           32768  0

dmesg 로그를 확인하면 아래 오류 메시지가 표시됩니다.

[   17.489578] EDAC amd64: Node 0: DRAM ECC disabled.
[   17.489580] EDAC amd64: ECC disabled in the BIOS or no ECC capability, module will not load.
                Either enable ECC checking or force module loading by setting 'ecc_enable_override'.
                (Note that use of the override may cause unknown side effects.)
[   17.489584] EDAC amd64: Node 1: DRAM ECC disabled.
[   17.489585] EDAC amd64: ECC disabled in the BIOS or no ECC capability, module will not load.
                Either enable ECC checking or force module loading by setting 'ecc_enable_override'.
                (Note that use of the override may cause unknown side effects.)

하지만 관련 로그가 없습니다.AMD64_EDAC 드라이버 초기화

드라이버가 컴파일되었는지 여부를 아래와 같이 경로를 다시 확인하고amd64_edac_mod.ko현재의.

:~$ ls /lib/modules/5.3.0-rc1-test/kernel/drivers/edac/
**amd64_edac_mod.ko**  **edac_mce_amd.ko**  i3200_edac.ko  i5100_edac.ko  i7300_edac.ko   i82975x_edac.ko  pnd2_edac.ko  skx_edac.ko
e752x_edac.ko      i3000_edac.ko    i5000_edac.ko  i5400_edac.ko  i7core_edac.ko  ie31200_edac.ko  sb_edac.ko    x38_edac.ko

모듈을 수동으로 삽입하려고 시도했지만 실패했습니다.

/lib/modules/5.3.0-rc1-test/kernel/drivers/edac$ sudo modprobe -v amd64_edac_mod
insmod /lib/modules/5.3.0-rc1-test/kernel/drivers/edac/amd64_edac_mod.ko 
modprobe: ERROR: could not insert 'amd64_edac_mod': No such device

위의 드라이버가 설치되지 않았기 때문에MC->MC0그리고MC1메모리 컨트롤러가 나열되지 않습니다.

:~$ ls /sys/devices/system/edac/mc/
power  subsystem  uevent

드라이버가 설치되지 않은 이유를 알려주시겠습니까?

관련 정보