Ubuntu 20.04 аварийно завершает работу: обнаружена ошибка ECC или отравление L2

Ubuntu 20.04 аварийно завершает работу: обнаружена ошибка ECC или отравление L2

Ubuntu 20.04 вылетает случайным образом в разное время. Невозможно указать на конкретное событие.

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

Вылетает при следующем сигнале:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

Информация об оборудовании:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

Каковы предлагаемые способы поиска первопричины? Как мне включить больше журналов или, если журнал уже существует, где я могу их найти и т. д. Любые указания будут оценены по достоинству. Спасибо!

решение1

Это нетехническиответ, но...

Сообщение ECC error or L2 poison was detected on a data cache read by a loadуказывает на проблему с памятью, либо с самой RAM, либо с кэшем на CPU. Ни то, ни другое не очень хорошо, но вы можете проверить системную RAM с помощью следующего процесса:

  1. Перезагрузите систему.
  2. Нажмите и удерживайте Shiftклавишу, чтобы открыть меню GRUB.
  3. Выберите "Ubuntu, memtest86+" и нажмите Enter
    Тест памяти будет выполняться до конца времени или пока вы не нажмете клавишу Esc. Дайте машине завершить хотя бы один тест перед выходом.

На основеотчеты вокругв Интернете эта проблема, похоже, наблюдается только с процессорами AMD Ryzen более высокого класса. Читаяэта длинная нитьна сайте сообщества AMD обнаружилась такая интересная информация:

Я заменил память, и компьютер работает как скала уже несколько дней. Надеюсь, это поможет вам, как помогло мне. Предыдущая память была Gskill 3600mhz... новая память — 3200 от Corsair.

В вашем вопросе не указано, какой тип памяти вы установили, но если это набор модулей с более высокой частотой, то может быть что-то между ОЗУ и ЦП, что вызывает нестабильность. Если тест памяти не пройден, а у вас есть совместимый ОЗУ 3200 МГц (даже если это всего один DIMM), рассмотрите возможность его замены и повторного проведения теста памяти.

решение2

БИОС

ASRock X570 Тайчи

Текущая версия BIOS — P4.30.

ОБЪЕМ ПАМЯТИ

G Skill Trident Z Neo DDR4 - 3600 МГц 32 ГБ (2 x 16 ГБ), продукт: F4-3600C16-16GTZNC

AMD Ryzen 9 5900X 12-ядерный процессор

Процессоры Ryzen очень требовательны к оперативной памяти.

Эти модули DIMM не указаны в списке поддерживаемой памяти, как видноздесь.

memtestпройдены все тесты.

Когда мы смотрим, sudo lshw -C memoryмы видим, что модули DIMMможетбыть установлены в неправильные слоты. При использовании двух модулей DIMM одинакового размера их следует устанавливать в слоты A2 и B2. Вот изображение макета платы и слотов памяти... взятое из руководства пользователя наздесь... так что просто проверьте это...

введите описание изображения здесь

решение3

На основе предложения от @heynnema мне удалось выяснить, что модель DIMM, установленная на моем компьютере, не указана в списке совместимости. Вот шаги, которые я выполнил:

  1. Посетите список поддерживаемых ЦПASRock x570 Taichi Сайт. Узнайте тип ядра. В моем случае это былоVermeer
  2. Узнайте модель модулей DIMM, установленных в системе, запустив sudo lshw -C memory(было F4-3600C16-16GTZNC)
  3. Перейдите кСписок поддерживаемых объемов памятидля Vermeer и посмотрите, поддерживается ли он. К сожалению, его нет в списке! возможно, это причина непоследовательных сбоев. Я попробую поддерживаемую версию DIMM, чтобы посмотреть, будут ли сбои снова, и обновлю этот ответ соответствующим образом.
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

Связанный контент