磁碟問題：irq_stat 0x20000000，主機匯流排錯誤

2024-6-27 • tag-icon

ubuntu hard-drive sata drive-failure

磁碟問題：irq_stat 0x20000000，主機匯流排錯誤

將大檔案 (50+GB) 從 NVMe 磁碟複製到 SATA 7200rpm HDD 磁碟時，我在完全修補的 Ubuntu 20.04 上的日誌中看到以下錯誤：

Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
                                    res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete

ata6.00是正在寫入的磁碟。
該問題是間歇性的。有時 24 小時不出現，有時每小時出現幾次。通常磁碟會恢復，但有時檔案系統只是損壞，需要卸載、修復（如果可能）並重新安裝。

我嘗試過的：

我嘗試了 3 個不同品牌的硬碟。所有人都有同樣的問題。
我懷疑是硬體問題。我更換了主機板和 SATA 電纜。這些都沒有幫助。
我有另一台具有相同配置的伺服器。那裡不會出現該問題。相同的工作量。
我還有另一台配置完全不同的伺服器（Intel 與 AMD）。問題就出現在那裡。相同的工作量。
我通過禁用了 NCQ echo 1 > /sys/block/sda/device/queue_depth。沒有幫助。

我沒有主意了……
這些都是資料中心級元件。鑑於我所採取的步驟，我認為這不是硬體製造缺陷。
這可能與軟體/作業系統/BIOS 相關嗎？
有什麼想法我還應該嘗試什麼嗎？

答案1

也許這比較是工作溫度的問題？隨著磁碟不斷使用，其物理位置和熱得失比變得太高，導致不穩定的行為？

在像您這樣的較新核心上，驅動器溫度可以放入 sysfs 中的以下路徑：

/sys/class/hwmon/*

請務必確保該drivetemp模組已載入modprobe drivetemp.

您可以考慮監視這裡的文件並再次開始大文件複製，內核文檔這裡提供如何解釋這些文件的指示。

它們包括有用的值，例如工作最低/最高溫度，一些驅動程式還可以提供警報指示器，這些指示器是在故障時觸發的晶片相關警報。

答案2

似乎可以透過升級到 Ubuntu 21.04 來解決。但不知道為什麼。伺服器現在運行穩定，沒有任何 ATA 問題。

相關內容