나는 훈련 모델에 사용하기 위해 폴더에서 상대적으로 큰 이미지(1MB)를 로드하는 것과 관련된 일부 TensorFlow 코드를 아침 내내 성공적으로 실행했습니다.
이것이 관련이 있는지는 확실하지 않지만 이전에는 GPU 4개를 모두 사용할 때 정전이 발생했습니다. 시스템이 정상적으로 재부팅되었습니다. 그러나 그 이후로 내 전체 시스템은 특히 폴더를 여는 등 모든 작업을 수행하는 속도가 느려졌습니다. 이미지(150개, 1MB 이미지)가 포함된 폴더가 엄청나게 느립니다. 폴더가 열려 있을 때 이미지 자체는 이미지가 천천히 로드되는 것을 보여줍니다(매우 느림 - 이미지당 약 1분).
메모리 사용량을 살펴보았습니다(맨 위, 터미널에서, 이것들은 상위 몇 개입니다).
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
297 root 20 0 0 0 0 R 35.9 0.0 15:10.55 md126_raid5
303 root 20 0 0 0 0 D 29.9 0.0 9:15.02 md126_resy+
1387 root 20 0 800764 331476 97912 S 9.3 0.3 4:22.46 Xorg
4300 simon 20 0 686220 49528 35004 S 5.6 0.0 1:56.81 gnome-syst+
1493 root -51 0 0 0 0 S 4.0 0.0 0:23.52 irq/76-nvi+
2583 simon 20 0 1898420 436948 92080 S 3.0 0.3 2:00.12 compiz
1498 root -51 0 0 0 0 S 2.0 0.0 0:22.59 irq/78-nvi+
1495 root -51 0 0 0 0 S 1.0 0.0 0:27.90 irq/77-nvi+
3065 simon 20 0 663544 41244 28168 S 0.7 0.0 0:06.64 gnome-term+
내 시스템에는 128GB RAM, 8T HD, 3.2Ghz 프로세서 및 4개의 1080ti GPU가 있습니다.
이것을 디버깅하는 방법을 잘 모르겠습니다. BleachBit을 다운로드하여 사용하지 않거나 오래된 파일을 모두 정리하는 데 사용했습니다.
이 문제의 원인을 어떻게 알 수 있습니까? - 저는 우분투를 처음 접했습니다.
편집하다:
glxinfo | grep renderer
준다
OpenGL renderer string: GeForce GTX 1080 Ti/PCIe/SSE2
그리고
cat /proc/mdsat
준다
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md126 : active raid5 sdb[2] sdc[1] sdd[0]
7814032384 blocks super external:/md127/0 level 5, 128k chunk, algorithm 0 [3/3] [UUU]
[=================>...] resync = 89.7% (3507217748/3907016320) finish=59.0min speed=112852K/sec
md127 : inactive sdb[2](S) sdd[1](S) sdc[0](S)
6780 blocks super external:imsm
unused devices: <none>
답변1
RAID가 다시 동기화되는 것 같습니다. 하드 드라이브의 크기를 고려하면 꽤 오랜 시간이 걸릴 수 있습니다.