cuda nvidia ドライバのクラッシュのデバッグ

2024-5-21 • tag-icon

私は、GeForce 690 GPU を搭載したヘッドレス Ubuntu サーバー 14.04 を実行して、楽しい Cuda 機械学習をやろうとしています。ドライバーがハングする問題が発生しており、ここでデバッグの支援をいただければ幸いです。これは新しい問題です。カードは、これまでコンピューティングでは正常に機能していました。

問題は、基本的にカードに接続しようとするすべてのプログラムがハングすることです。これは、私が自分で書いた非常に単純なプログラムでも、nvidia が提供する nvidia-smi バイナリでも発生します。これらをそれぞれ strace で実行しましたが、すべて open syscall でハングし、/dev/nvidiactl デバイスを開こうとします。

プログラムがハングすると、シグナルを受信できなくなります (kill -9 は効果がありません)。再起動することによってのみ停止できます。

nvidia ドライバーの rmmod を強制しようとしましたが、使用中であると表示されます。lsof では、実際に /dev/nvidiactl のファイル記述子を保持しているプログラムは表示されません。

マシンにはディスプレイが接続されておらず、グラフィカルプログラム (X、gnome、unity など) も実行されていません。

このようなものをシステムレベルでデバッグするには、どのような方法が最適ですか? ドライバーコードは独自のものであるため、難しいです...

関連情報