Linux에서 드물게 발생하는 컴퓨터 정지를 진단하는 방법은 무엇입니까?

Linux에서 드물게 발생하는 컴퓨터 정지를 진단하는 방법은 무엇입니까?

지난 몇 달 동안 데스크탑 컴퓨터가 자주 정지되는 현상이 발생했습니다. 이 경우 화면의 내용은 다음과 같습니다. 마우스가 정지되고 키보드를 사용하여 재부팅하거나 가상 콘솔로 전환할 수 없으며 SysRq 시퀀스가 ​​아무런 효과도 없습니다. 유일한 옵션은 케이스의 버튼을 통한 하드 리셋뿐입니다.

저는 주로 Debian 11.6을 사용하고 있으며 가끔씩 Windows 11을 사용하여 게임을 하고 있습니다. 저는 게임을 하면서 멈춤 현상을 경험해 본 적이 없습니다. 하지만 이는 단순히 게임에 소비하는 시간이 짧기 때문일 수도 있습니다.

일관성 없는 단서:

  • 여기에 폭염(40°C 이상)이 있었던 여름에 동결이 발생하기 시작했습니다. 그래서 저는 이것이 과열 문제라고 생각했고, 실제로 가을과 겨울이 되면서 동결이 ​​덜 자주 발생했습니다. 하지만 완전히 멈추지는 않았습니다. 예전에는 1~2일에 한 번씩 왔는데 요즘은 일주일에 한 번 정도 되네요.

  • 전체 화면 비디오를 시청하는 동안 정지 현상이 자주 발생하고 때로는(항상은 아니지만) 비디오 메모리에 임의의 데이터가 기록된 것처럼 색상 패턴이 나타납니다. 그래서 비디오 카드에 문제가 있을 수도 있다고 생각했습니다. (VDPAU를 설치했기 때문에 프로그램이 하드웨어 디코딩을 사용할 수도 있습니다.) 그러나 일반적인 데스크탑 사용 중에도 작동이 멈추는 현상이 발생합니다.

진단:

  • 재부팅 후 시스템 로그를 살펴봤으나 관련 정보가 없습니다. 마지막 항목은 종종 몇 분 더 빠르며 표준 시스템 이벤트와 관련이 있습니다. 그러나 이는 단순히 정지로 인해 마지막 메시지가 손실되었음을 의미할 수도 있습니다.

  • dd if=/dev/zero of=/dev/null나는 다음을 기반으로 CPU 부하 테스트를 사용했습니다.컴퓨터가 불규칙적으로 멈춤, 7개의 병렬 작업 포함(CPU는 하이퍼스레딩이 포함된 4코어). htop8개의 가상 코어가 모두 100%로 표시되었지만 ~10분 후에도 정지가 발생하지 않았습니다.

  • 와 를 모두 설치 memtest86하고 memtest86+부팅 메뉴에서 메모리 테스트를 시작했습니다. 두 버전 모두 약 1초 후에 컴퓨터가 정지되지만 오류 메시지는 표시되지 않습니다. 화면 사진은 아래를 참조하세요.

    이것은 내 기억에 결함이 있다는 뜻인가요? 대신 오류 메시지가 표시될 것이라고 생각했습니다. 게다가 대용량 데이터 파일을 자주 조작하는데 파일 데이터 손상을 발견한 적이 없습니다. 나는 또한 가끔 주 메모리를 가득 채우는 과학적인 계산을 수행하는데, 그 동안에도 정지 현상을 경험한 적이 없습니다. (그러나 나는 과도한 교체로 인해 정기적으로 시스템을 무릎 꿇게 만들었습니다.)

제가 찾은 정지 현상을 일관되고 빠르게 실행하는 유일한 방법은 메모리 테스트입니다.

질문:

  • 실제로 메모리 결함으로 인한 경우 4개의 메모리 모듈 중 교체해야 할 모듈을 어떻게 알 수 있습니까? 아니면 항상 모두 교체해야 합니까?

  • 전원 공급 장치 결함으로 인해 정지될 수 있다는 유사한 질문을 여러 개 읽었습니다. 약 1년 반 전에 오래된 전원 공급 장치가 사망했기 때문에 전원 공급 장치를 교체했습니다. 원래는 똑같은 모델을 사용하려고 했으나 더 이상 생산되지 않아서 사양이 조금 더 높은 모델을 사용했습니다. 이번 기회에 케이스 내부를 꼼꼼히 청소해봤습니다.

  • 소프트웨어 측면에서 이 문제를 더 잘 진단하려면 어떻게 해야 합니까? 특히, 정지 직전까지 로그 메시지를 어떻게 보존할 수 있나요? Debian 11은 systemd 로깅을 사용합니다. 예를 들어 대신 또는 추가로 서버에 메시지를 보내는 방법이 있습니까?

시스템 사양:

  • SMBIOS 2.7이 포함된 ASUSTeK COMPUTER INC. P8Z77-M Rev 1.xx
  • American Megatrends Inc. BIOS 버전 1806
  • 조용히 해! 스트레이트 파워 11 750W 750W ATX 블랙
  • 인텔(R) 코어(TM) i7-3770 CPU @ 3.40GHz
  • 256 KiB L1 캐시, 1 MiB L2 캐시, 8 MiB L3 캐시(L3이 비활성화된 것 같습니다. 그렇게 한 기억이 없습니다)
  • Intel Corporation 7 시리즈/C216 칩셋
  • 4개 모듈 à 4GB Transcend JM1333KLN-8GK DIMM DDR3 동기식 1333MHz(0.8ns)
  • NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
  • SAMSUNG SSD 830 시리즈 및 WDC WD60EFRX, 둘 다 SMART 오류 없음

컴퓨터가 10년 정도 된 컴퓨터라 새로 구입하는 것도 나쁘지 않을 것 같습니다. 그동안 몇 가지 작은 업그레이드(더 많은 메모리, 약간 더 나은 CPU, 더 나은 비디오 카드)를 수행했지만 그 중 작동 중지를 설명할 만큼 최근의 업그레이드는 없습니다.

정지 후 메모리 테스트 화면 사진:

멤테스트86 멤테스트86+

두 번째 화면에서는 정지 후에도 빨간색 "+"가 계속 깜박이며 이는 비디오 카드가 여전히 작동하고 있음을 나타냅니다.


추가사항:

@Appleoddity 님의 댓글에 응답하여 메모리 모듈을 꺼냈습니다. 슬롯에 단단히 고정되어 있고 접점을 포함하여 깨끗합니다. 다시 삽입했을 때 때로는 삽입된 것처럼 보이지만 실제로는 제대로 삽입되지 않았으며 세게 밀어서 고정된 것을 발견했습니다. 그런데 그럴 때 메모리 오류는 발생하지 않는데, 컴퓨터가 전혀 시작되지 않습니다.

모듈 중 하나만 불량일 경우에는 하나씩 장착하고 메모리 테스트를 진행해봤습니다. 그러나 각 단일 모듈에 대해 모든 테스트는 오류 메시지나 정지 없이 통과되었습니다.

그런 다음 쌍으로 배치했습니다. 6가지 조합을 모두 통과했는지는 확실하지 않지만, 시도한 여러 조합 모두에서 컴퓨터가 메모리 테스트에서 몇 초 동안 멈췄습니다.

마지막으로 메인보드 BIOS(2015-12-18의 최신 버전인 2203)를 업데이트하여 어떻게든 문제를 해결하거나 적어도 더 나은 진단 기능을 제공할 수 있기를 희망했지만 성공하지 못했습니다. 나도 시도했다감소BIOS 설정에서 메모리 클럭 속도를 확인했지만 "오버클럭"에 실패했다는 오류 메시지가 표시되었습니다.

제가 시도할 수 있는 다른 것이 있나요? 완전히 새로운 메모리 모듈을 구입해야 합니까?

관련 정보