Debuggen von Abstürzen des CUDA-Nvidia-Treibers

Debuggen von Abstürzen des CUDA-Nvidia-Treibers

Ich betreibe einen Headless-Ubuntu-Server 14.04 mit GeForce 690 GPU und versuche, lustige Cuda-Maschinenlernsachen zu machen. Ich habe Probleme mit dem hängenden Treiber und hoffe, hier Hilfe beim Debuggen zu bekommen. Dies ist ein neues Problem; die Karte hat in der Vergangenheit beim Computing einwandfrei funktioniert.

Das Problem ist, dass grundsätzlich jedes Programm, das versucht, eine Verbindung zur Karte herzustellen, hängen bleibt. Das passiert sowohl bei sehr einfachen Programmen, die ich selbst geschrieben habe, als auch bei der von Nvidia bereitgestellten Binärdatei nvidia-smi. Ich habe jedes davon über strace laufen lassen und sie bleiben alle bei einem offenen Systemaufruf hängen, wenn versucht wird, das Gerät /dev/nvidiactl zu öffnen.

Sobald die Programme hängen, können sie keine Signale mehr empfangen (kill -9 hat keine Wirkung). Ich kann sie nur durch einen Neustart stoppen.

Ich habe versucht, rmmod des NVIDIA-Treibers zu erzwingen, aber dieser behauptet, in Verwendung zu sein. lsof zeigt keine Programme an, die tatsächlich einen Dateideskriptor für /dev/nvidiactl besitzen.

An die Maschine ist kein Display angeschlossen und es werden keine Grafikprogramme (X, Gnome, Unity usw.) ausgeführt.

Wie kann man überhaupt am besten mit dem Debuggen von so etwas auf Systemebene beginnen? Das ist schwierig, da der Treibercode proprietär ist ...

verwandte Informationen