멋진 시스템과 과부하가 없는 Ubuntu 22.10 하드 크래시 문제 해결

멋진 시스템과 과부하가 없는 Ubuntu 22.10 하드 크래시 문제 해결

내 홈 데스크탑 컴퓨터에서 Ubuntu 22.10을 실행하고 있습니다.

내 시스템이 무작위 간격으로 충돌하고 있는데, 제가 생각할 수 있는 즉각적인 원인은 없습니다. 경고나 이를 유발할 수 있는 특별한 조치 없이, 누군가가 케이스/BIOS에서 "재설정" 버튼을 누를 때처럼 컴퓨터가 종료되고 재부팅됩니다.

다음은 이러한 충돌 중 하나가 발생한 직후의 센서입니다.

k10temp-pci-00c3
Adapter: PCI adapter
Tctl:         +58.6°C  
Tccd1:        +46.2°C  
Tccd2:        +44.5°C  

nvme-pci-2200
Adapter: PCI adapter
Composite:    +46.9°C  (low  = -273.1°C, high = +81.8°C)
                       (crit = +84.8°C)
Sensor 1:     +46.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +56.9°C  (low  = -273.1°C, high = +65261.8°C)

nvme-pci-2300
Adapter: PCI adapter
Composite:    +56.9°C  (low  =  -0.1°C, high = +89.8°C)
                       (crit = +94.8°C)

iwlwifi_1-virtual-0
Adapter: Virtual device
temp1:        +42.0°C  

nct6797-isa-0a20
Adapter: ISA adapter
in0:            1.26 V  (min =  +0.00 V, max =  +1.74 V)
in1:          1000.00 mV (min =  +0.00 V, max =  +0.00 V)  ALARM
in2:            3.33 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in3:            3.31 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in4:            1.02 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in5:          160.00 mV (min =  +0.00 V, max =  +0.00 V)  ALARM
in6:          672.00 mV (min =  +0.00 V, max =  +0.00 V)  ALARM
in7:            3.33 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in8:            3.30 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in9:            1.84 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in10:           0.00 V  (min =  +0.00 V, max =  +0.00 V)
in11:         456.00 mV (min =  +0.00 V, max =  +0.00 V)  ALARM
in12:           1.10 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in13:         680.00 mV (min =  +0.00 V, max =  +0.00 V)  ALARM
in14:           1.53 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
fan1:            0 RPM  (min =    0 RPM)
fan2:         1086 RPM  (min =    0 RPM)
fan3:            0 RPM  (min =    0 RPM)
fan4:            0 RPM  (min =    0 RPM)
fan5:          699 RPM  (min =    0 RPM)
fan6:          969 RPM  (min =    0 RPM)
fan7:         1422 RPM  (min =    0 RPM)
SYSTIN:        +47.0°C  (high = +80.0°C, hyst = +75.0°C)  sensor = CPU diode
CPUTIN:        +41.0°C  (high = +108.0°C, hyst = +90.0°C)  sensor = thermistor
AUXTIN0:       +45.0°C  (high = +108.0°C, hyst = +90.0°C)  sensor = thermistor
AUXTIN1:      -128.0°C    sensor = thermistor
AUXTIN2:       +62.0°C    sensor = thermistor
AUXTIN3:        -2.0°C    sensor = thermistor
Virtual_TEMP:  +58.0°C  
Virtual_TEMP:  +59.0°C  
Virtual_TEMP:  +58.0°C  
Virtual_TEMP:  +58.0°C  
TSI0_TEMP:     +58.5°C  
intrusion0:   ALARM
intrusion1:   ALARM
beep_enable:  disabled

nvme-pci-0100
Adapter: PCI adapter
Composite:    +45.9°C  (low  = -273.1°C, high = +84.8°C)
                       (crit = +84.8°C)
Sensor 1:     +45.9°C  (low  = -273.1°C, high = +65261.8°C)
Sensor 2:     +48.9°C  (low  = -273.1°C, high = +65261.8°C)

이것은 journalctl -b -1 -e충돌/재부팅 전에 아무것도 기록되지 않았음을 보여주는 내 출력입니다.

mag 29 10:49:14 bwian-MS-7C35 gnome-shell[2742]: Window manager warning: Overwriting existing binding of keysym 38 with keysym 38 (keycode 11).
mag 29 10:49:14 bwian-MS-7C35 gnome-shell[2742]: Window manager warning: Overwriting existing binding of keysym 39 with keysym 39 (keycode 12).
mag 29 10:50:04 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaWindowGroup>:0x5650fd7ec680] is on because it needs an allocation.
mag 29 10:50:04 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaWindowActorX11>:0x5650fdea1ba0] is on because it needs an allocation.
mag 29 10:50:04 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaSurfaceActorX11>:0x5651001067c0] is on because it needs an allocation.
mag 29 10:50:25 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaSurfaceActorX11>:0x5651001067c0] is on because it needs an allocation.
mag 29 10:52:10 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaWindowGroup>:0x5650fd7ec680] is on because it needs an allocation.
mag 29 10:52:10 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaWindowActorX11>:0x5650ffdcd1f0] is on because it needs an allocation.
mag 29 10:52:10 bwian-MS-7C35 gnome-shell[2742]: Can't update stage views actor <unnamed>[<MetaSurfaceActorX11>:0x565109af6f60] is on because it needs an allocation.
mag 29 10:53:08 bwian-MS-7C35 [email protected][2742]: Microsoft Teams - Preview1, Impossible to lookup icon for 'Microsoft Teams - Preview1_13-panel' in path /tmp/.org.chr>
mag 29 10:53:08 bwian-MS-7C35 [email protected][2742]: unable to update icon for Microsoft Teams - Preview1
mag 29 10:53:15 bwian-MS-7C35 [email protected][2742]: Microsoft Teams - Preview1, Impossible to lookup icon for 'Microsoft Teams - Preview1_14-panel' in path /tmp/.org.chr>
mag 29 10:53:15 bwian-MS-7C35 [email protected][2742]: unable to update icon for Microsoft Teams - Preview1
mag 29 10:55:01 bwian-MS-7C35 CRON[29178]: pam_unix(cron:session): session opened for user root(uid=0) by (uid=0)
mag 29 10:55:01 bwian-MS-7C35 CRON[29179]: (root) CMD (command -v debian-sa1 > /dev/null && debian-sa1 1 1)
mag 29 10:55:01 bwian-MS-7C35 CRON[29178]: pam_unix(cron:session): session closed for user root

나는 kern.log또한 관련성이 있다고 생각되는 것을 아무것도 표시하지 않습니다.

May 29 09:48:09 bwian-MS-7C35 kernel: [ 2121.745635] kauditd_printk_skb: 7 callbacks suppressed
May 29 09:48:09 bwian-MS-7C35 kernel: [ 2121.745638] audit: type=1400 audit(1685346489.868:116): apparmor="STATUS" operation="profile_replace" info="same as current profile, skipping" pro
file="unconfined" name="libreoffice-oosplash" pid=18136 comm="apparmor_parser"
May 29 09:48:09 bwian-MS-7C35 kernel: [ 2121.767162] audit: type=1400 audit(1685346489.888:117): apparmor="STATUS" operation="profile_replace" info="same as current profile, skipping" pro
file="unconfined" name="libreoffice-senddoc" pid=18140 comm="apparmor_parser"
May 29 09:48:12 bwian-MS-7C35 kernel: [ 2124.796003] audit: type=1400 audit(1685346492.916:118): apparmor="STATUS" operation="profile_replace" profile="unconfined" name="libreoffice-soffi
ce" pid=18143 comm="apparmor_parser"
May 29 09:48:12 bwian-MS-7C35 kernel: [ 2124.822358] audit: type=1400 audit(1685346492.944:119): apparmor="STATUS" operation="profile_replace" profile="unconfined" name="libreoffice-soffi
ce//gpg" pid=18143 comm="apparmor_parser"
May 29 09:48:12 bwian-MS-7C35 kernel: [ 2124.846377] audit: type=1400 audit(1685346492.968:120): apparmor="STATUS" operation="profile_replace" info="same as current profile, skipping" pro
file="unconfined" name="libreoffice-xpdfimport" pid=18182 comm="apparmor_parser"
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] Linux version 5.19.0-42-generic (buildd@lcy02-amd64-019) (x86_64-linux-gnu-gcc-12 (Ubuntu 12.2.0-3ubuntu1) 12.2.0, GNU ld (GNU Binutil
s for Ubuntu) 2.39) #43-Ubuntu SMP PREEMPT_DYNAMIC Tue Apr 18 18:21:28 UTC 2023 (Ubuntu 5.19.0-42.43-generic 5.19.17)
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-5.19.0-42-generic root=UUID=ea1660b0-ea10-41d0-baa8-bc942fb21e02 ro quiet splash vt.handoff=7
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] KERNEL supported cpus:
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000]   Intel GenuineIntel
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000]   AMD AuthenticAMD
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000]   Hygon HygonGenuine
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000]   Centaur CentaurHauls
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000]   zhaoxin   Shanghai  
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] x86/fpu: Supporting XSAVE feature 0x004: 'AVX registers'
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] x86/fpu: xstate_offset[2]:  576, xstate_sizes[2]:  256
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] x86/fpu: Enabled xstate features 0x7, context size is 832 bytes, using 'compacted' format.
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] signal: max sigframe size: 1776
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-provided physical RAM map:
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x0000000000000000-0x000000000009ffff] usable
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x00000000000a0000-0x00000000000fffff] reserved
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x0000000000100000-0x0000000009d81fff] usable
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x0000000009d82000-0x0000000009ffffff] reserved
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x000000000a000000-0x000000000a1fffff] usable
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x000000000a200000-0x000000000a20ffff] ACPI NVS
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x000000000a210000-0x00000000cacb0fff] usable
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x00000000cacb1000-0x00000000cb0a8fff] reserved
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x00000000cb0a9000-0x00000000cb10cfff] ACPI data
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x00000000cb10d000-0x00000000ccc0cfff] ACPI NVS
May 29 11:04:23 bwian-MS-7C35 kernel: [    0.000000] BIOS-e820: [mem 0x00000000ccc0d000-0x00000000cdbfefff] reserved

추가 참고 사항:

  • 문제를 재현하기 위해 할 수 있는 일이 없습니다.
  • 온도는 괜찮은 것 같습니다. 작년에 열 페이스트를 교체했으며 성능이 뛰어난 Noctua NX-15 쿨러를 사용하고 있습니다. PC에는 먼지가 없습니다.
  • 시스템이 최신 상태입니다.
  • 때로는 문제가 GPU의 과도한 부하와 관련되어 있는 경우도 있습니다.또는CPU
  • ...하지만 스트레스 테스트 모두 충돌을 재현하지 못했습니다.
  • Memtest에서 아무런 문제도 발견하지 못했습니다.
  • 또한 일부 벤치마크 및 스트레스 테스트 프로그램을 사용하여 PSU에 부하를 가하려고 시도했지만 마법사나 자동화된 테스트가 부족하여 올바르게 수행했는지 확신할 수 없습니다. 누군가 내 테스트 방법을 제공하면 기쁠 것입니다. 파워서플라이
  • 시스템이 재부팅하기 전에 시간 내에 아무 것도 쓸 수 없는 것처럼 로그가 명확해 보입니다.

내 의심은 PSU나 마더보드에 문제가 있을 수 있다는 것인데, 문제가 무엇인지 확신할 수 없었습니다.

결함이 있는 하드웨어가 무엇인지 어떻게 확인할 수 있습니까?

답변1

  1. 정상적으로 작동하는 PSU를 교체하여 Ubuntu가 여전히 충돌하는지 확인하세요.

  2. Windows 10이 없거나 빌릴 수 없는 경우 이중 부팅 설정을 위해 Windows 10을 설치하세요. Windows에는 사용하기 쉬운 스트레스 테스트 프로그램을 위한 더 많은 옵션이 있습니다. 이를 실행하여 Windows가 충돌하는지 확인하세요. 원활하게 실행되면 하드웨어 문제를 거의 배제할 수 있습니다.

  3. Nouveau와 독점 GPU 드라이버 사이를 전환하고 다른 버전도 사용해 보세요.

  4. Ubuntu 20.04를 사용해 보거나 KDE, Xfce 또는 LXDE와 같은 Cinnamon 이외의 데스크탑 환경을 사용하여 문제가 지속되는지 확인하십시오.

관련 정보