我整個上午都成功運行了一些 TensorFlow 程式碼,其中涉及從資料夾加載相對較大的圖像 (1mb) 以用於訓練模型。
我不確定這是否相關,但早些時候,當我使用所有 4 個 GPU 時,我發生了斷電。系統重新啟動正常。但從那時起,我的整個系統做任何事情都很慢 - 特別是打開資料夾。包含影像(150、1mb 影像)的資料夾速度慢得離譜。當資料夾開啟時,圖像本身顯示圖像正在緩慢加載(非常慢 - 每張圖像大約 1 分鐘)
我查看了記憶體使用情況(頂部,來自終端;這些是前幾個)
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
297 root 20 0 0 0 0 R 35.9 0.0 15:10.55 md126_raid5
303 root 20 0 0 0 0 D 29.9 0.0 9:15.02 md126_resy+
1387 root 20 0 800764 331476 97912 S 9.3 0.3 4:22.46 Xorg
4300 simon 20 0 686220 49528 35004 S 5.6 0.0 1:56.81 gnome-syst+
1493 root -51 0 0 0 0 S 4.0 0.0 0:23.52 irq/76-nvi+
2583 simon 20 0 1898420 436948 92080 S 3.0 0.3 2:00.12 compiz
1498 root -51 0 0 0 0 S 2.0 0.0 0:22.59 irq/78-nvi+
1495 root -51 0 0 0 0 S 1.0 0.0 0:27.90 irq/77-nvi+
3065 simon 20 0 663544 41244 28168 S 0.7 0.0 0:06.64 gnome-term+
我的系統有 128 GB RAM、8T 硬碟、3.2Ghz 處理器和 4 個 1080ti GPU。
我不知道如何調試這個。我下載了 BleachBit 並用它來清理所有未使用的和舊的檔案。
我怎樣才能弄清這件事的真相呢? - 我對 Ubuntu 還很陌生。
編輯:
glxinfo | grep renderer
給出
OpenGL renderer string: GeForce GTX 1080 Ti/PCIe/SSE2
和
cat /proc/mdsat
給出
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md126 : active raid5 sdb[2] sdc[1] sdd[0]
7814032384 blocks super external:/md127/0 level 5, 128k chunk, algorithm 0 [3/3] [UUU]
[=================>...] resync = 89.7% (3507217748/3907016320) finish=59.0min speed=112852K/sec
md127 : inactive sdb[2](S) sdd[1](S) sdc[0](S)
6780 blocks super external:imsm
unused devices: <none>
答案1
您的 RAID 似乎正在重新同步。考慮到您的硬碟的大小,這可能需要相當長的時間。