將大檔案 (50+GB) 從 NVMe 磁碟複製到 SATA 7200rpm HDD 磁碟時,我在完全修補的 Ubuntu 20.04 上的日誌中看到以下錯誤:
Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete
ata6.00
是正在寫入的磁碟。
該問題是間歇性的。有時 24 小時不出現,有時每小時出現幾次。通常磁碟會恢復,但有時檔案系統只是損壞,需要卸載、修復(如果可能)並重新安裝。
我嘗試過的:
- 我嘗試了 3 個不同品牌的硬碟。所有人都有同樣的問題。
- 我懷疑是硬體問題。我更換了主機板和 SATA 電纜。這些都沒有幫助。
- 我有另一台具有相同配置的伺服器。那裡不會出現該問題。相同的工作量。
- 我還有另一台配置完全不同的伺服器(Intel 與 AMD)。問題就出現在那裡。相同的工作量。
- 我通過 禁用了 NCQ
echo 1 > /sys/block/sda/device/queue_depth
。沒有幫助。
我沒有主意了……
這些都是資料中心級元件。鑑於我所採取的步驟,我認為這不是硬體製造缺陷。
這可能與軟體/作業系統/BIOS 相關嗎?
有什麼想法我還應該嘗試什麼嗎?
答案1
也許這比較是工作溫度的問題?隨著磁碟不斷使用,其物理位置和熱得失比變得太高,導致不穩定的行為?
在像您這樣的較新核心上,驅動器溫度可以放入 sysfs 中的以下路徑:
/sys/class/hwmon/*
請務必確保該drivetemp
模組已載入modprobe drivetemp
.
您可以考慮監視這裡的文件並再次開始大文件複製,內核文檔這裡提供如何解釋這些文件的指示。
它們包括有用的值,例如工作最低/最高溫度,一些驅動程式還可以提供警報指示器,這些指示器是在故障時觸發的晶片相關警報。
答案2
似乎可以透過升級到 Ubuntu 21.04 來解決。但不知道為什麼。伺服器現在運行穩定,沒有任何 ATA 問題。