Linux의 다중 GPU 및 팬

Linux의 다중 GPU 및 팬

Ubuntu 18.04 상자에 두 개의 GTX 1080ti가 있는데 둘 다 Founder 에디션입니다. 저는 주로 신경망 훈련에 사용합니다.

이제 본질적으로 두 가지 문제가 있습니다.

  1. Coolbit를 설정하면(--enable-all-gpus를 사용해도) 팬 속도와 시계를 설정할 수 있습니다.모니터에 부착된 GPU 전용

  2. 팬 속도를 정적으로 설정하는 것이 아니라 %팬 속도 대 온도라는 동적 프로필을 설정하고 싶습니다. 자동 모드에 있을 때 부하가 걸린 1080ti 중 하나는 조절 및 케이스가 넓다는 사실에 관계없이 정기적으로 89-90C에 도달합니다. (다른 1080ti는 더 시원하게 유지됩니다. 모든 GPU가 동일하게 생성되지는 않는다고 생각합니다.) .

내 구성에 대한 정보:

inxi -b
System:    Host: nimrod Kernel: 4.15.0-46-generic x86_64 bits: 64
           Desktop: Xfce 4.12.3 Distro: Ubuntu 18.04.2 LTS
Machine:   Device: desktop Mobo: FUJITSU model: D3128-B2 v: S26361-D3128-B2 serial: N/A
           UEFI: FUJITSU // American Megatrends v: V4.6.5.4 R1.8.0 for D3128-B2x date: 06/28/2018
CPU:       10 core Intel Xeon E5-2680 v2 (-MT-MCP-) speed/max: 2269/3600 MHz
Graphics:  Card-1: Advanced Micro Devices [AMD/ATI] Park [Mobility Radeon HD 5430]
           Card-2: NVIDIA GP102 [GeForce GTX 1080 Ti]
           Card-3: NVIDIA GP102 [GeForce GTX 1080 Ti]
           Display Server: x11 (X.Org 1.19.6 )
           drivers: modesetting,nvidia,ati,radeon,nouveau (unloaded: fbdev,vesa)
           Resolution: [email protected]
           OpenGL: renderer: GeForce GTX 1080 Ti/PCIe/SSE2
           version: 4.6.0 NVIDIA 415.27
Network:   Card: Intel 82579LM Gigabit Network Connection (Lewisville)
           driver: e1000e
Drives:    HDD Total Size: 2262.5GB (9.5% used)
Info:      Processes: 413 Uptime: 10 min Memory: 3677.2/96560.4MB
           Client: Shell (bash) inxi: 2.3.56 

Nvidia-smi:

Mon Mar 25 04:19:30 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 415.27       Driver Version: 415.27       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:03:00.0 Off |                  N/A |
| 23%   39C    P8    10W / 250W |      2MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:04:00.0  On |                  N/A |
| 31%   57C    P0    69W / 250W |    204MiB / 11176MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    1      1465      G   /usr/lib/xorg/Xorg                           201MiB |
+-----------------------------------------------------------------------------+

그리고 마지막으로 내 xorg.conf

# nvidia-xconfig: X configuration file generated by nvidia-xconfig
# nvidia-xconfig:  version 415.27

Section "ServerLayout"
    Identifier     "Layout0"
    Screen      0  "Screen0"
    Screen      1  "Screen1" RightOf "Screen0"
    InputDevice    "Keyboard0" "CoreKeyboard"
    InputDevice    "Mouse0" "CorePointer"
EndSection

Section "Files"
EndSection

Section "InputDevice"
    # generated from default
    Identifier     "Mouse0"
    Driver         "mouse"
    Option         "Protocol" "auto"
    Option         "Device" "/dev/psaux"
    Option         "Emulate3Buttons" "no"
    Option         "ZAxisMapping" "4 5"
EndSection

Section "InputDevice"
    # generated from default
    Identifier     "Keyboard0"
    Driver         "kbd"
EndSection

Section "Monitor"
    Identifier     "Monitor0"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Monitor"
    Identifier     "Monitor1"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:3:0:0"
EndSection

Section "Device"
    Identifier     "Device1"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:4:0:0"
EndSection

Section "Screen"
    Identifier     "Screen0"
    Device         "Device0"
    Monitor        "Monitor0"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "31"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Section "Screen"
    Identifier     "Screen1"
    Device         "Device1"
    Monitor        "Monitor1"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "31"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

두 가지 모두에 대해 Coolbit이 설정되어 있습니다.

도와주세요?

감사해요! :)

답변1

지난주에도 똑같은 일을 경험했습니다. 운전자의 잘못입니다. 버전 390 또는 430을 사용해 보십시오. 두 버전은 1080ti 두 개가 포함된 아치에서 제대로 작동하는 것으로 확인된 두 버전입니다.

문제를 식별하는 것은 정말 어렵습니다. 처음에는 SLI를 지원하지 않는 것이 마더보드의 잘못이라고 생각하여 다른 마더보드를 사용하고 SLI를 활성화한 다음 두 GPU의 팬 속도를 설정할 수 있습니다. 그러나 SLI를 사용할 때 두 개의 그래픽 카드는 두 개의 GPU에서 동일한 메모리를 사용하고 있었습니다. SLI는 배치 크기를 더 작게 만들기 때문에 이는 허용되지 않습니다. 그런 다음 SLI를 비활성화하면 두 카드 모두에 대해 팬 속도를 다시 설정할 수 없습니다. 그래서 NVIDIA 드라이버를 변경해 보았는데 제대로 작동했습니다. 빌어먹을 엔비디아, 대신 다른 마더보드를 바꾸다가 첫 번째 마더보드의 LGA 베이스가 깨졌고, 베이스가 부러져서 i5-9400f를 태워 버렸습니다. 제 부주의 때문이라는 건 알지만 엔비디아 드라이버 버그만 아니었다면 고생할 필요는 없었을 거에요.(그저 말도 안되는 불평들만)

관련 정보