GPU 부하로 인한 컴퓨터 종료의 근본 원인 검사

GPU 부하로 인한 컴퓨터 종료의 근본 원인 검사

과학적인 목적으로 Nvidia GPU를 사용하려고 합니다. 그러나 잠시 후 이 GPU에 대한 프로세스를 시작하면 컴퓨터가 종료됩니다. PSU 전원 버튼이 꺼지고 이 상태를 최소 30초 동안 유지한 후 켜지지 않으면 케이스 버튼으로 열 수 없습니다. 나는 이 상황의 원인을 찾으려고 노력하고 있다.

내 시스템 개요는 다음과 같습니다

  • 리눅스(페도라)
  • 마더보드: 기가바이트 GA-970A-UD3
  • Nvidia GTX 1070(GPU 작업용)
  • Radeon HD 7850(표준 용도)
  • 700W 파워서플라이

지금까지 시도한 작업 목록은 다음과 같습니다.

  • CPU 부하 테스트를 했는데 종료되지 않습니다.
  • AMD GPU를 제거했는데 여전히 종료됩니다.
  • Nvidia GPU에 짧은 시간 동안 가벼운 계산을 주면 종료되지 않습니다.
  • 계산을 많이 하면 시작 직후에 종료됩니다.
  • Nvidia GPU 온도를 확인했는데 심지어 최대 부동 소수점입니다. 55도쯤 되면 꺼지는데
  • Nvidia GPU 팬 속도를 수동으로 %80으로 설정했습니다. 주어진 작업이 평소보다 조금 더 오래 실행되기 때문에 도움이 되는 것처럼 보였지만 종료를 막지는 못했습니다.
  • PSU의 피로를 덜기 위해 여분의 HDD나 팬을 제거했는데 전혀 도움이 되지 않았습니다.
  • 다음을 사용하여 추가 PSU를 추가했습니다.add2psu하지만 여전히 종료
  • CPU 온도가 약 45인데도 Nvidia GPU가 계산을 시작하면 종료됩니다.
  • 계산 소프트웨어를 완전히 변경했지만 종료되었습니다.
  • Nvidia 드라이버를 업데이트했는데 도움이 되지 않았습니다.
  • 하드 디스크 읽기 프로세스를 분리하기 위해 무작위 계산을 시도했지만 여전히 종료됩니다.
  • OS를 다시 설치했는데 문제가 지속됩니다.
  • 마더보드를 확인했지만 탄 흔적은 없습니다

당신의 제안은 무엇입니까? 이것의 근본 원인은 무엇일까요?

감사합니다.

답변1

CPU 온도는 몇 도인가요? 열 화합물의 부적절한 사용(예: CPU 쿨러가 충분하지 않거나 잘못 정렬되면 과열로 인해 동일한 문제가 발생할 수 있으며 마지막으로 확인해야 할 사항은 전원 공급 장치입니다. 최근에 부하(게임) 시 오류가 발생하여 시스템을 재부팅하는 경우가 있었습니다. 하지만 게임을 하지 않을 때는 몇 시간 동안 게임을 하곤 했습니다. 가장 저렴하고 가장 쉬운 방법은 먼저 PSU를 확인하는 것입니다. 여전히 안도감이 없다면 CPU의 열 화합물을 다시 작업하고 CPU 쿨러가 제대로 장착되었는지 확인하세요.

답변2

Nvidia GPU에서 작업을 실행하는 동안 클럭 주파수를 검사한 결과실제로 사양 최대값을 초과합니다.. 따라서 P8과 같은 일부 낮은 상태에서는 종료되지 않지만 오버클럭된 주파수로 인해 더 높은 상태에서는 작동하지 않습니다.

Nvidia GPU의 클럭 주파수를 제한할 수 없습니다. 그러나 전력 소비를 제한하여 실행 속도를 상대적으로 느리게 만드는 대신 20%의 비용으로 작동하게 만들었습니다.

명령:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

관련 정보