磁碟問題:irq_stat 0x20000000,主機匯流排錯誤

磁碟問題:irq_stat 0x20000000,主機匯流排錯誤

將大檔案 (50+GB) 從 NVMe 磁碟複製到 SATA 7200rpm HDD 磁碟時,我在完全修補的 Ubuntu 20.04 上的日誌中看到以下錯誤:

Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete

ata6.00是正在寫入的磁碟。
該問題是間歇性的。有時 24 小時不出現,有時每小時出現幾次。通常磁碟會恢復,但有時檔案系統只是損壞,需要卸載、修復(如果可能)並重新安裝。

我嘗試過的:

  1. 我嘗試了 3 個不同品牌的硬碟。所有人都有同樣的問題。
  2. 我懷疑是硬體問題。我更換了主機板和 SATA 電纜。這些都沒有幫助。
  3. 我有另一台具有相同配置的伺服器。那裡不會出現該問題。相同的工作量。
  4. 我還有另一台配置完全不同的伺服器(Intel 與 AMD)。問題就出現在那裡。相同的工作量。
  5. 我通過 禁用了 NCQ echo 1 > /sys/block/sda/device/queue_depth。沒有幫助。

我沒有主意了……
這些都是資料中心級元件。鑑於我所採取的步驟,我認為這不是硬體製造缺陷。
這可能與軟體/作業系統/BIOS 相關嗎?
有什麼想法我還應該嘗試什麼嗎?

答案1

也許這比較是工作溫度的問題?隨著磁碟不斷使用,其物理位置和熱得失比變得太高,導致不穩定的行為?

在像您這樣的較新核心上,驅動器溫度可以放入 sysfs 中的以下路徑:

/sys/class/hwmon/*

請務必確保該drivetemp模組已載入modprobe drivetemp.

您可以考慮監視這裡的文件並再次開始大文件複製,內核文檔這裡提供如何解釋這些文件的指示。

它們包括有用的值,例如工作最低/最高溫度,一些驅動程式還可以提供警報指示器,這些指示器是在故障時觸發的晶片相關警報。

答案2

似乎可以透過升級到 Ubuntu 21.04 來解決。但不知道為什麼。伺服器現在運行穩定,沒有任何 ATA 問題。

相關內容