
Acabo de conectar un Razor Core X con una eGPU a mi Thinkpad por primera vez. Los ventiladores giran, pero nvidia-smi
no muestran la eGPU.
¿Qué puedo hacer?
Respuesta1
Primero, verifique dmesg | tail -n 200
. Podría mostrar algo como esto:
[ 74.959198] thunderbolt 0000:06:00.0: current switch config:
[ 74.959201] thunderbolt 0000:06:00.0: Switch: 8086:15da (Revision: 6, TB Version: 2)
[ 74.959202] thunderbolt 0000:06:00.0: Max Port Number: 11
[ 74.959203] thunderbolt 0000:06:00.0: Config:
[ 74.959204] thunderbolt 0000:06:00.0: Upstream Port Number: 1 Depth: 1 Route String: 0x3 Enabled: 1, PlugEventsDelay: 254ms
[ 74.959205] thunderbolt 0000:06:00.0: unknown1: 0x0 unknown4: 0x0
[ 74.999560] thunderbolt 0000:06:00.0: 3: reading drom (length: 0x56)
[ 75.301575] thunderbolt 0000:06:00.0: 3: uid: 0x1279cc9b0ba8400
[ 75.301686] thunderbolt 0000:06:00.0: Port 0: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.301689] thunderbolt 0000:06:00.0: Max hop id (in/out): 7/7
[ 75.301692] thunderbolt 0000:06:00.0: Max counters: 8
[ 75.301694] thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302174] thunderbolt 0000:06:00.0: Port 1: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.302178] thunderbolt 0000:06:00.0: Max hop id (in/out): 15/15
[ 75.302180] thunderbolt 0000:06:00.0: Max counters: 16
[ 75.302183] thunderbolt 0000:06:00.0: NFC Credits: 0x7800000
[ 75.302681] thunderbolt 0000:06:00.0: Port 2: 8086:15d3 (Revision: 6, TB Version: 1, Type: Port (0x1))
[ 75.302683] thunderbolt 0000:06:00.0: Max hop id (in/out): 15/15
[ 75.302685] thunderbolt 0000:06:00.0: Max counters: 16
[ 75.302687] thunderbolt 0000:06:00.0: NFC Credits: 0x0
[ 75.302689] thunderbolt 0000:06:00.0: 3:3: disabled by eeprom
[ 75.302691] thunderbolt 0000:06:00.0: 3:4: disabled by eeprom
[ 75.302692] thunderbolt 0000:06:00.0: 3:5: disabled by eeprom
[ 75.302806] thunderbolt 0000:06:00.0: Port 6: 8086:15d3 (Revision: 6, TB Version: 1, Type: PCIe (0x100102))
[ 75.302808] thunderbolt 0000:06:00.0: Max hop id (in/out): 8/8
[ 75.302809] thunderbolt 0000:06:00.0: Max counters: 2
[ 75.302811] thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302960] thunderbolt 0000:06:00.0: Port 7: 8086:15d3 (Revision: 6, TB Version: 1, Type: PCIe (0x100101))
[ 75.302962] thunderbolt 0000:06:00.0: Max hop id (in/out): 8/8
[ 75.302964] thunderbolt 0000:06:00.0: Max counters: 2
[ 75.302966] thunderbolt 0000:06:00.0: NFC Credits: 0x800000
[ 75.302967] thunderbolt 0000:06:00.0: 3:8: disabled by eeprom
[ 75.302969] thunderbolt 0000:06:00.0: 3:9: disabled by eeprom
[ 75.302971] thunderbolt 0000:06:00.0: 3:a: disabled by eeprom
[ 75.302973] thunderbolt 0000:06:00.0: 3:b: disabled by eeprom
Eso sugiere un problema de permisos/seguridad.
Instalemos las herramientas de administración de Thunderbolt para que podamos solucionarlo:
sudo apt install thunderbolt-tools
Ahora, verifiquemos si Thunderbolt ve el muelle:
root@mymachine:~# tbtadm devices
0-4 Razer Core X non-authorized not in ACL
¡Lo hace!
Ahora, autoricemos el muelle:
tbtadm approve 0-4
Esta espectáculos:
Authorizing "/sys/bus/thunderbolt/devices/0-4"
Already in ACL
system:5 Input/output error
Al desconectar y volver a conectar la base y mirar dmesg
nuevamente se muestra:
[11187.232181] thunderbolt 0000:06:00.0: PCIe tunnel creation failed
Entonces volvemos a mirar Thunderbolt:
root@mymachine:~# tbtadm devices
0-4 Razer Core X non-authorized in ACL
Y, efectivamente, podemos ver que el dock está conectado:
root@mymachine:~# tbtadm acl
0XXXXXb0-XXXX-XXXX-ffff-ffffffffffff Razer Core X connected
Intentemos autorizar las cosas manualmente:
root@mymachine:~# echo '1' > /sys/bus/thunderbolt/devices/0-4/authorized
-bash: echo: write error: Input/output error
En este punto, sospeché que el problema podría ser el BIOS. Entonces, reinicie, abra la configuración del BIOS. Está en "Autorización de usuario", pero usemos la opción nuclear "Sin seguridad" (probablemente sea buena para descubrir cómo bloquear las cosas nuevamente más adelante):
En este punto, reinicie la máquina nuevamente.
Antes de conectar la GPU, asegúrese de tener cargados los controladores de Nvidia:
sudo modprobe nvidia-uvm
Y trata de encontrar la GPU:
nvidia-smi
¡Éxito!
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.87.00 Driver Version: 418.87.00 CUDA Version: 10.1 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 GeForce RTX 208... Off | 00000000:3D:00.0 Off | N/A |
| 15% 36C P0 1W / 250W | 0MiB / 10989MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Processes: GPU Memory |
| GPU PID Type Process name Usage |
|=============================================================================|
| No running processes found |
+-----------------------------------------------------------------------------+
De acuerdo aeste documentola configuración del BIOS significa:
- Sin seguridad: permite que los dispositivos Thunderbolt se conecten automáticamente.
- Autorización de usuario: permite que los dispositivos Thunderbolt se conecten después de la autorización del usuario.
- Conexión segura: permite que los dispositivos Thunderbolt se conecten con una clave guardada que haya sido aprobada por el usuario.
- Puerto de pantalla y USB: Permite conectar solo salidas de pantalla y dispositivos USB. No se permite conectar dispositivos Thunderbolt