Ubuntu 20.04 がクラッシュ: ECC エラーまたは L2 ポイズンが検出されました

Ubuntu 20.04 がクラッシュ: ECC エラーまたは L2 ポイズンが検出されました

Ubuntu 20.04 はさまざまな時間にランダムにクラッシュします。特定のイベントを特定できません。

uname -a 
Linux ubuntu 5.11.0-051100-generic #202102142330 
SMP Sun Feb 14 23:33:21 UTC 2021 x86_64 x86_64 x86_64 GNU/Linux

次のシグナルでクラッシュします:

 kernel:[19849.215258] [Hardware Error]: Uncorrected, software restartable error.

 kernel:[19849.215259] [Hardware Error]: CPU:22 (19:21:0) MC0_STATUS[-|UE|MiscV|AddrV|-|-|-|-|Poison|-]: 0xbc00080001010135

 kernel:[19849.215263] [Hardware Error]: Error Addr: 0x000000076bed1c00

 kernel:[19849.215264] [Hardware Error]: IPID: 0x001000b000000000

 kernel:[19849.215266] [Hardware Error]: Load Store Unit Ext. Error Code: 1, An ECC error or L2 poison was detected on a data cache read by a load.

 kernel:[19849.215269] [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD

ハードウェア情報:

### CPU
  Architecture:                    x86_64
  CPU op-mode(s):                  32-bit, 64-bit
  Byte Order:                      Little Endian
  Address sizes:                   48 bits physical, 48 bits virtual
  CPU(s):                          24
  On-line CPU(s) list:             0-23
  Thread(s) per core:              2
  Core(s) per socket:              12
  Socket(s):                       1
  NUMA node(s):                    1
  Vendor ID:                       AuthenticAMD
  CPU family:                      25
  Model:                           33
  Model name:                      AMD Ryzen 9 5900X 12-Core Processor
  Stepping:                        0
  Frequency boost:                 enabled
  CPU MHz:                         2200.000
  CPU max MHz:                     6442.4800
  CPU min MHz:                     2200.0000

### Base Board Information
  Manufacturer: ASRock
  Product Name: X570 Taichi

### Memory:
G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)

根本原因を見つけるための推奨される方法は何ですか? どうすればより多くのログ記録を有効にすることができますか、またはログがすでに存在する場合はどこで見つけることができますかなど。どんなアドバイスでもいただければ幸いです。ありがとうございます!

答え1

これは技術的に答えですが…

このECC error or L2 poison was detected on a data cache read by a loadメッセージは、RAM 自体または CPU のキャッシュのいずれかのメモリの問題を示しています。どちらもあまり良い問題ではありませんが、次のプロセスでシステム RAM をテストできます。

  1. システムを再起動します
  2. キーを長押しするShiftとGRUBメニューが表示されます
  3. 「Ubuntu、memtest86+」を選択して、 キーを押します。Enter
    メモリ テストは、時間の終わりまで、またはEscキーを押すまで実行されます。終了する前に、マシンが少なくとも 1 つのテストを完了するようにしてください。

に基づくレポート その周りウェブ上では、この問題はハイエンドのAMD Ryzenプロセッサでのみ見られるようです。この長い糸AMD のコミュニティ サイトで、次のような興味深い情報が明らかになりました。

メモリを交換したら、コンピューターは数日間安定して動作しています。これが私の役に立ったように、皆さんもお役に立てれば幸いです。以前のメモリは Gskill 3600mhz メモリでした。新しいメモリは Corsair の 3200 メモリです。

質問には、インストールされているメモリの種類が記載されていませんが、より周波数の高いモジュール セットの場合は、RAM と CPU の間に不安定さの原因となる何かがある可能性があります。メモリ テストが失敗し、互換性のある 3200MHz RAM が使用可能である場合 (DIMM が 1 つだけの場合でも)、それを交換してメモリ テストを再度実行することを検討してください。

答え2

BIOS

ASRock X570 太一

BIOS はバージョン P4.30 が最新です。

メモリ

G Skill Trident Z Neo DDR4 - 3600Mhz 32GB (2 x 16GB)、製品: F4-3600C16-16GTZNC

AMD Ryzen 9 5900X 12コアプロセッサ

Ryzen プロセッサは RAM に関して非常にうるさいです。

これらのDIMMは、メモリサポートリストには表示されません。ここ

memtestすべてのテストに合格しました。

sudo lshw -C memoryDIMMを見ると、5月間違ったスロット位置にインストールしないでください。同じサイズのDIMMを2枚使用する場合は、スロットA2とB2にインストールする必要があります。ボードレイアウトとメモリスロットの画像は、次のユーザーマニュアルから引用したものです。ここ... それで、これを検証してください...

ここに画像の説明を入力してください

答え3

@heynnema からの提案に基づいて、私のコンピューターにインストールされている DIMM のモデルが互換性リストに記載されていないことがわかりました。次の手順に従います。

  1. CPUサポートリストをご覧くださいASRock x570 Taichi ウェブサイトコアタイプを調べます。私の場合はVermeer
  2. システムにインストールされているDIMMのモデルを確認するには、sudo lshw -C memory(以下を実行してくださいF4-3600C16-16GTZNC
  3. に移動メモリサポートリストVermeer の場合、サポートされているかどうかを確認してください。残念ながらリストにはありません。おそらくこれが不安定なクラッシュの原因です。サポートされているバージョンの DIMM を試して、クラッシュが再び発生するかどうかを確認し、それに応じてこの回答を更新します。
 *-firmware
       description: BIOS
       vendor: American Megatrends Inc.
       physical id: 0
       version: P4.30
       date: 04/14/2021
       size: 64KiB
       capacity: 16MiB
       capabilities: pci upgrade shadowing cdboot bootselect socketedrom edd int13floppy1200 int13floppy720 int13floppy2880 int5printscreen int9keyboard int14serial int17printer acpi usb biosbootspecification uefi
  *-memory
       description: System Memory
       physical id: e
       slot: System board or motherboard
       size: 32GiB
     *-bank:0
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 0
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:1
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 1
          serial: Unknown
          slot: DIMM 1
     *-bank:2
          description: DIMM DDR4 Synchronous Unbuffered (Unregistered) 2133 MHz (0.5 ns)
          product: F4-3600C16-16GTZNC
          vendor: Unknown
          physical id: 2
          serial: 00000000
          slot: DIMM 0
          size: 16GiB
          width: 64 bits
          clock: 2133MHz (0.5ns)
     *-bank:3
          description: Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5)Project-Id-Version: lshwReport-Msgid-Bugs-To: FULL NAME <EMAIL@ADDRESS>PO-Revision-Date: 2012-02-02 13:04+0000Last-Translator: Joel Addison <[email protected]>Language-Team: English (Australia) <[email protected]>MIME-Version: 1.0Content-Type: text/plain; charset=UTF-8Content-Transfer-Encoding: 8bitX-Launchpad-Export-Date: 2021-01-21 18:43+0000X-Generator: Launchpad (build 2d1d5e352f0d063d660df2300e31f66bed027fa5) [empty]
          product: Unknown
          vendor: Unknown
          physical id: 3
          serial: Unknown
          slot: DIMM 1
  *-cache:0
       description: L1 cache
       physical id: 11
       slot: L1 - Cache
       size: 768KiB
       capacity: 768KiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=1
  *-cache:1
       description: L2 cache
       physical id: 12
       slot: L2 - Cache
       size: 6MiB
       capacity: 6MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=2
  *-cache:2
       description: L3 cache
       physical id: 13
       slot: L3 - Cache
       size: 64MiB
       capacity: 64MiB
       clock: 1GHz (1.0ns)
       capabilities: pipeline-burst internal write-back unified
       configuration: level=3

関連情報