Mehrere GPUs und Lüfter unter Linux

Mehrere GPUs und Lüfter unter Linux

Ich habe zwei GTX 1080ti auf einer Ubuntu 18.04-Box, beide Founder's Edition. Ich verwende sie hauptsächlich zum Trainieren neuronaler Netzwerke.

Nun habe ich im Wesentlichen zwei Probleme:

  1. Durch das Einstellen der Coolbits (auch mit --enable-all-gpus) kann ich die Lüftergeschwindigkeit und die Taktfrequenz einstellennur für die GPU, die an den Monitor angeschlossen ist

  2. Ich möchte die Lüftergeschwindigkeit nicht statisch einstellen, sondern ein dynamisches Profil einrichten, % Lüftergeschwindigkeit vs. Temperatur. Bedenken Sie, dass im automatischen Modus unter Last eine 1080ti regelmäßig 89–90 °C erreicht, unabhängig von der Drosselung und der Tatsache, dass das Gehäuse geräumig ist. (Die andere 1080ti bleibt kühler. Ich denke, dass nicht alle GPUs gleich sind.)

Informationen zu meiner Konfiguration:

inxi -b
System:    Host: nimrod Kernel: 4.15.0-46-generic x86_64 bits: 64
           Desktop: Xfce 4.12.3 Distro: Ubuntu 18.04.2 LTS
Machine:   Device: desktop Mobo: FUJITSU model: D3128-B2 v: S26361-D3128-B2 serial: N/A
           UEFI: FUJITSU // American Megatrends v: V4.6.5.4 R1.8.0 for D3128-B2x date: 06/28/2018
CPU:       10 core Intel Xeon E5-2680 v2 (-MT-MCP-) speed/max: 2269/3600 MHz
Graphics:  Card-1: Advanced Micro Devices [AMD/ATI] Park [Mobility Radeon HD 5430]
           Card-2: NVIDIA GP102 [GeForce GTX 1080 Ti]
           Card-3: NVIDIA GP102 [GeForce GTX 1080 Ti]
           Display Server: x11 (X.Org 1.19.6 )
           drivers: modesetting,nvidia,ati,radeon,nouveau (unloaded: fbdev,vesa)
           Resolution: [email protected]
           OpenGL: renderer: GeForce GTX 1080 Ti/PCIe/SSE2
           version: 4.6.0 NVIDIA 415.27
Network:   Card: Intel 82579LM Gigabit Network Connection (Lewisville)
           driver: e1000e
Drives:    HDD Total Size: 2262.5GB (9.5% used)
Info:      Processes: 413 Uptime: 10 min Memory: 3677.2/96560.4MB
           Client: Shell (bash) inxi: 2.3.56 

Nvidia-smi:

Mon Mar 25 04:19:30 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 415.27       Driver Version: 415.27       CUDA Version: 10.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  Off  | 00000000:03:00.0 Off |                  N/A |
| 23%   39C    P8    10W / 250W |      2MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  Off  | 00000000:04:00.0  On |                  N/A |
| 31%   57C    P0    69W / 250W |    204MiB / 11176MiB |      2%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    1      1465      G   /usr/lib/xorg/Xorg                           201MiB |
+-----------------------------------------------------------------------------+

Und schließlich meine xorg.conf

# nvidia-xconfig: X configuration file generated by nvidia-xconfig
# nvidia-xconfig:  version 415.27

Section "ServerLayout"
    Identifier     "Layout0"
    Screen      0  "Screen0"
    Screen      1  "Screen1" RightOf "Screen0"
    InputDevice    "Keyboard0" "CoreKeyboard"
    InputDevice    "Mouse0" "CorePointer"
EndSection

Section "Files"
EndSection

Section "InputDevice"
    # generated from default
    Identifier     "Mouse0"
    Driver         "mouse"
    Option         "Protocol" "auto"
    Option         "Device" "/dev/psaux"
    Option         "Emulate3Buttons" "no"
    Option         "ZAxisMapping" "4 5"
EndSection

Section "InputDevice"
    # generated from default
    Identifier     "Keyboard0"
    Driver         "kbd"
EndSection

Section "Monitor"
    Identifier     "Monitor0"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Monitor"
    Identifier     "Monitor1"
    VendorName     "Unknown"
    ModelName      "Unknown"
    HorizSync       28.0 - 33.0
    VertRefresh     43.0 - 72.0
    Option         "DPMS"
EndSection

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:3:0:0"
EndSection

Section "Device"
    Identifier     "Device1"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "GeForce GTX 1080 Ti"
    BusID          "PCI:4:0:0"
EndSection

Section "Screen"
    Identifier     "Screen0"
    Device         "Device0"
    Monitor        "Monitor0"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "31"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Section "Screen"
    Identifier     "Screen1"
    Device         "Device1"
    Monitor        "Monitor1"
    DefaultDepth    24
    Option         "AllowEmptyInitialConfiguration" "True"
    Option         "Coolbits" "31"
    SubSection     "Display"
        Depth       24
    EndSubSection
EndSection

Beachten Sie, dass die Coolbits für beide gesetzt sind.

Kannst du mir helfen?

Danke! :)

Antwort1

Habe letzte Woche genau dasselbe erlebt. Es liegt am Treiber. Versuchen Sie Version 390 oder 430. Das sind die beiden Versionen, von denen ich bestätigt habe, dass sie auf Arch mit zwei 1080ti einwandfrei funktionieren.

Es ist wirklich schwer, das Problem zu identifizieren. Zuerst dachte ich, es sei die Schuld meines Motherboards, das SLI nicht unterstützt, also habe ich ein anderes Motherboard verwendet und SLI aktiviert, dann kann ich die Lüftergeschwindigkeit für beide GPUs einstellen. Bei Verwendung von SLI verwendeten die beiden Grafikkarten jedoch dieselben Speicher auf zwei GPUs. Das ist inakzeptabel, da SLI die Batchgröße verkleinert. Dann deaktiviere ich SLI und kann die Lüftergeschwindigkeit für beide Karten nicht mehr einstellen. Also habe ich versucht, meinen Nvidia-Treiber zu ändern, der dann ordnungsgemäß funktioniert. Verdammtes Nvidia, ich habe die LGA-Basis auf dem ersten Motherboard kaputt gemacht, als ich stattdessen ein anderes Motherboard gewechselt habe, und habe einen i5-9400f wegen der kaputten Basis verbrannt. Ich weiß, dass es auf meine Unachtsamkeit zurückzuführen ist, aber ich müsste nicht leiden, wenn es keinen Fehler in den Nvidia-Treibern gäbe. (nur ein paar unsinnige Beschwerden)

verwandte Informationen