O Ubuntu 20.04 trava: um erro ECC ou veneno L2 foi detectado

O Ubuntu 20.04 trava: um erro ECC ou veneno L2 foi detectado

O Ubuntu 20.04 trava aleatoriamente em momentos diferentes. Não é possível apontar para um evento específico.

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Trava com o seguinte sinal:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Informações de hardware:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

Quais são as formas sugeridas para descobrir a causa raiz? Como faço para habilitar mais registros ou se o log já existe, onde posso encontrá-los, etc. Qualquer orientação será apreciada. Obrigado!

Responder1

Isso não étecnicamenteuma resposta, mas...

A ECC error or L2 poison was detected on a data cache read by a loadmensagem aponta para um problema de memória, seja na própria RAM ou no cache da CPU. Nenhum deles é ótimo, mas você pode testar a RAM do sistema com o seguinte processo:

  1. Reinicie seu sistema
  2. Pressione e segure a Shifttecla para abrir o menu GRUB
  3. Selecione "Ubuntu, memtest86+" e pressione. Enter
    O teste de memória será executado até o final do tempo ou até você pressionar a Esctecla. Deixe a máquina completar pelo menos um teste antes de escapar.

Baseado emrelatórios em voltana web, esse problema parece ser visto apenas nos processadores AMD Ryzen de última geração. Lendoesse longo fiono site da comunidade da AMD revelou esta parte interessante:

Troquei a memória e o computador está sólido há alguns dias. Espero que isso ajude você, assim como me ajudou. A memória anterior era memória Gskill 3600mhz... a nova memória é 3200 memória da Corsair.

Sua pergunta não indica que tipo de memória você instalou, mas, se for um conjunto de módulos de alta frequência, pode haver algo entre a RAM e a CPU que está causando instabilidade. Se o teste de memória falhar e você tiver alguma RAM compatível de 3.200 MHz disponível (mesmo que seja apenas um DIMM), considere trocá-la e realizar o teste de memória novamente.

Responder2

BIOS

ASRock X570 Taichi

O BIOS está atualizado na versão P4.30.

MEMÓRIA

G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB), produto: F4-3600C16-16GTZNC

Processador AMD Ryzen 9 5900X de 12 núcleos

Os processadores Ryzen são muito exigentes com a RAM.

Esses DIMMs não aparecem na lista de memórias suportadas, como vistoaqui.

memtestpassou em todos os testes.

Quando olhamos, sudo lshw -C memoryvemos que os DIMMspoderiaser instalado em locais de slot incorretos. Ao usar 2 DIMMs de tamanhos iguais, eles devem ser instalados nos slots A2 e B2. Aqui está uma imagem do layout da placa e dos slots de memória... retirada do Manual do Usuário emaqui... então apenas verifique isso ...

insira a descrição da imagem aqui

Responder3

Com base na sugestão de @heynnema, consegui descobrir que o modelo dos DIMMs instalados no meu computador não está listado na lista de compatibilidade. Aqui estão os passos seguidos:

  1. Visite a lista de CPU suportada doSite ASRock x570 Taichi. Descubra o tipo de núcleo. No meu caso foiVermeer
  2. Descubra o modelo dos DIMMs instalados no sistema executando sudo lshw -C memory(era F4-3600C16-16GTZNC)
  3. Navegue até oLista de memória suportadapara Vermeer e veja se é compatível. Infelizmente não está na lista! talvez essa seja a causa das falhas inconsistentes. Tentarei uma versão compatível de DIMMs para ver se as falhas ocorrem novamente e atualizarei esta resposta de acordo.
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

informação relacionada