O Ubuntu 20.04 trava aleatoriamente em momentos diferentes. Não é possível apontar para um evento específico.
uname -a
Linux ubuntu 5.11.0-051100-generic #202102142330
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
Trava com o seguinte sinal:
kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.
kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00
kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000
kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Informações de hardware:
### CPU
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
Address sizes: 48 bits physical, 48 bits virtual
CPU(s): 24
On-line CPU(s) list: 0-23
Thread(s) per core: 2
Core(s) per socket: 12
Socket(s): 1
NUMA node(s): 1
Vendor ID: AuthenticAMD
CPU family: 25
Model: 33
Model name: AMD Ryzen 9 5900X 12-Core Processor
Stepping: 0
Frequency boost: enabled
CPU MHz: 2200.000
CPU max MHz: 6442.4800
CPU min MHz: 2200.0000
### Base Board Information
Manufacturer: ASRock
Product Name: X570 Taichi
### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)
Quais são as formas sugeridas para descobrir a causa raiz? Como faço para habilitar mais registros ou se o log já existe, onde posso encontrá-los, etc. Qualquer orientação será apreciada. Obrigado!
Responder1
Isso não étecnicamenteuma resposta, mas...
A ECC error or L2 poison was detected on a data cache read by a load
mensagem aponta para um problema de memória, seja na própria RAM ou no cache da CPU. Nenhum deles é ótimo, mas você pode testar a RAM do sistema com o seguinte processo:
- Reinicie seu sistema
- Pressione e segure a Shifttecla para abrir o menu GRUB
- Selecione "Ubuntu, memtest86+" e pressione. Enter
O teste de memória será executado até o final do tempo ou até você pressionar a Esctecla. Deixe a máquina completar pelo menos um teste antes de escapar.
Baseado emrelatórios em voltana web, esse problema parece ser visto apenas nos processadores AMD Ryzen de última geração. Lendoesse longo fiono site da comunidade da AMD revelou esta parte interessante:
Troquei a memória e o computador está sólido há alguns dias. Espero que isso ajude você, assim como me ajudou. A memória anterior era memória Gskill 3600mhz... a nova memória é 3200 memória da Corsair.
Sua pergunta não indica que tipo de memória você instalou, mas, se for um conjunto de módulos de alta frequência, pode haver algo entre a RAM e a CPU que está causando instabilidade. Se o teste de memória falhar e você tiver alguma RAM compatível de 3.200 MHz disponível (mesmo que seja apenas um DIMM), considere trocá-la e realizar o teste de memória novamente.
Responder2
BIOS
ASRock X570 Taichi
O BIOS está atualizado na versão P4.30.
MEMÓRIA
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), produto: F4-3600C16-16GTZNC
Processador AMD Ryzen 9 5900X de 12 núcleos
Os processadores Ryzen são muito exigentes com a RAM.
Esses DIMMs não aparecem na lista de memórias suportadas, como vistoaqui.
memtest
passou em todos os testes.
Quando olhamos, sudo lshw -C memory
vemos que os DIMMspoderiaser instalado em locais de slot incorretos. Ao usar 2 DIMMs de tamanhos iguais, eles devem ser instalados nos slots A2 e B2. Aqui está uma imagem do layout da placa e dos slots de memória... retirada do Manual do Usuário emaqui... então apenas verifique isso ...
Responder3
Com base na sugestão de @heynnema, consegui descobrir que o modelo dos DIMMs instalados no meu computador não está listado na lista de compatibilidade. Aqui estão os passos seguidos:
- Visite a lista de CPU suportada doSite ASRock x570 Taichi. Descubra o tipo de núcleo. No meu caso foi
Vermeer
- Descubra o modelo dos DIMMs instalados no sistema executando
sudo lshw -C memory
(eraF4-3600C16-16GTZNC
) - Navegue até oLista de memória suportadapara Vermeer e veja se é compatível. Infelizmente não está na lista! talvez essa seja a causa das falhas inconsistentes. Tentarei uma versão compatível de DIMMs para ver se as falhas ocorrem novamente e atualizarei esta resposta de acordo.
*-firmware
description: BIOS
vendor: American Megatrends Inc.
physical id: 0
version: P4.30
date: 04/14/2021
size: 64KiB
capacity: 16MiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: e
slot: System board or motherboard
size: 32GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 0
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 1
serial: Unknown
slot: DIMM 1
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 2
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:3
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 3
serial: Unknown
slot: DIMM 1
*-cache:0
description: L1 cache
physical id: 11
slot: L1 - Cache
size: 768KiB
capacity: 768KiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 12
slot: L2 - Cache
size: 6MiB
capacity: 6MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 13
slot: L3 - Cache
size: 64MiB
capacity: 64MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=3