Ubuntu 20.04 вылетает случайным образом в разное время. Невозможно указать на конкретное событие.
uname -a
Linux ubuntu 5.11.0-051100-generic #202102142330
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux
Вылетает при следующем сигнале:
kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.
kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135
kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00
kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000
kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.
kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD
Информация об оборудовании:
### CPU
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
Address sizes: 48 bits physical, 48 bits virtual
CPU(s): 24
On-line CPU(s) list: 0-23
Thread(s) per core: 2
Core(s) per socket: 12
Socket(s): 1
NUMA node(s): 1
Vendor ID: AuthenticAMD
CPU family: 25
Model: 33
Model name: AMD Ryzen 9 5900X 12-Core Processor
Stepping: 0
Frequency boost: enabled
CPU MHz: 2200.000
CPU max MHz: 6442.4800
CPU min MHz: 2200.0000
### Base Board Information
Manufacturer: ASRock
Product Name: X570 Taichi
### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)
Каковы предлагаемые способы поиска первопричины? Как мне включить больше журналов или, если журнал уже существует, где я могу их найти и т. д. Любые указания будут оценены по достоинству. Спасибо!
решение1
Это нетехническиответ, но...
Сообщение ECC error or L2 poison was detected on a data cache read by a load
указывает на проблему с памятью, либо с самой RAM, либо с кэшем на CPU. Ни то, ни другое не очень хорошо, но вы можете проверить системную RAM с помощью следующего процесса:
- Перезагрузите систему.
- Нажмите и удерживайте Shiftклавишу, чтобы открыть меню GRUB.
- Выберите "Ubuntu, memtest86+" и нажмите Enter
Тест памяти будет выполняться до конца времени или пока вы не нажмете клавишу Esc. Дайте машине завершить хотя бы один тест перед выходом.
На основеотчеты вокругв Интернете эта проблема, похоже, наблюдается только с процессорами AMD Ryzen более высокого класса. Читаяэта длинная нитьна сайте сообщества AMD обнаружилась такая интересная информация:
Я заменил память, и компьютер работает как скала уже несколько дней. Надеюсь, это поможет вам, как помогло мне. Предыдущая память была Gskill 3600mhz... новая память — 3200 от Corsair.
В вашем вопросе не указано, какой тип памяти вы установили, но если это набор модулей с более высокой частотой, то может быть что-то между ОЗУ и ЦП, что вызывает нестабильность. Если тест памяти не пройден, а у вас есть совместимый ОЗУ 3200 МГц (даже если это всего один DIMM), рассмотрите возможность его замены и повторного проведения теста памяти.
решение2
БИОС
ASRock X570 Тайчи
Текущая версия BIOS — P4.30.
ОБЪЕМ ПАМЯТИ
G Skill Trident Z Neo DDR4 - 3600 МГц 32 ГБ (2 x 16 ГБ), продукт: F4-3600C16-16GTZNC
AMD Ryzen 9 5900X 12-ядерный процессор
Процессоры Ryzen очень требовательны к оперативной памяти.
Эти модули DIMM не указаны в списке поддерживаемой памяти, как видноздесь.
memtest
пройдены все тесты.
Когда мы смотрим, sudo lshw -C memory
мы видим, что модули DIMMможетбыть установлены в неправильные слоты. При использовании двух модулей DIMM одинакового размера их следует устанавливать в слоты A2 и B2. Вот изображение макета платы и слотов памяти... взятое из руководства пользователя наздесь... так что просто проверьте это...
решение3
На основе предложения от @heynnema мне удалось выяснить, что модель DIMM, установленная на моем компьютере, не указана в списке совместимости. Вот шаги, которые я выполнил:
- Посетите список поддерживаемых ЦПASRock x570 Taichi Сайт. Узнайте тип ядра. В моем случае это было
Vermeer
- Узнайте модель модулей DIMM, установленных в системе, запустив
sudo lshw -C memory
(былоF4-3600C16-16GTZNC
) - Перейдите кСписок поддерживаемых объемов памятидля Vermeer и посмотрите, поддерживается ли он. К сожалению, его нет в списке! возможно, это причина непоследовательных сбоев. Я попробую поддерживаемую версию DIMM, чтобы посмотреть, будут ли сбои снова, и обновлю этот ответ соответствующим образом.
*-firmware
description: BIOS
vendor: American Megatrends Inc.
physical id: 0
version: P4.30
date: 04/14/2021
size: 64KiB
capacity: 16MiB
capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
*-memory
description: System Memory
physical id: e
slot: System board or motherboard
size: 32GiB
*-bank:0
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 0
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:1
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 1
serial: Unknown
slot: DIMM 1
*-bank:2
description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
product: F4-3600C16-16GTZNC
vendor: Unknown
physical id: 2
serial: 00000000
slot: DIMM 0
size: 16GiB
width: 64 bits
clock: 2133MHz (0.5ns)
*-bank:3
description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
product: Unknown
vendor: Unknown
physical id: 3
serial: Unknown
slot: DIMM 1
*-cache:0
description: L1 cache
physical id: 11
slot: L1 - Cache
size: 768KiB
capacity: 768KiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=1
*-cache:1
description: L2 cache
physical id: 12
slot: L2 - Cache
size: 6MiB
capacity: 6MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=2
*-cache:2
description: L3 cache
physical id: 13
slot: L3 - Cache
size: 64MiB
capacity: 64MiB
clock: 1GHz (1.0ns)
capabilities: pipeline-burst internal write-back unified
configuration: level=3