讀/寫 2.6.32-22-server 時檔案損壞（發生在許多核心中）

Question 1

我的直覺告訴我這是一個硬體問題，可能與熱有關（因為它在一段運行時間後出現）。很可能您的南橋或相關硬體有問題。

考慮在南橋上運行一些廣泛的事務測試，或者乾脆更換主機板。

您的作業系統保持穩定，但出現隨機 IO 錯誤通常會排除 CPU/記憶體的問題，因為這些錯誤往往會導致作業系統與其他軟體一起崩潰和燒毀。但核心的大部分內容是在啟動時從磁碟讀取的，並且從未被交換出，因此即使 Linux 系統無法從磁碟正確讀取，它也可以非常穩定。

Answer

我的直覺告訴我這是一個硬體問題，可能與熱有關（因為它在一段運行時間後出現）。很可能您的南橋或相關硬體有問題。

考慮在南橋上運行一些廣泛的事務測試，或者乾脆更換主機板。

您的作業系統保持穩定，但出現隨機 IO 錯誤通常會排除 CPU/記憶體的問題，因為這些錯誤往往會導致作業系統與其他軟體一起崩潰和燒毀。但核心的大部分內容是在啟動時從磁碟讀取的，並且從未被交換出，因此即使 Linux 系統無法從磁碟正確讀取，它也可以非常穩定。

Question 2

損壞是發生在主機本身還是來賓電腦上？ qemu-kvm 中存在一個已知錯誤，會導致大型虛擬磁碟中的資料損壞（請參閱https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665例如）

Answer

損壞是發生在主機本身還是來賓電腦上？ qemu-kvm 中存在一個已知錯誤，會導致大型虛擬磁碟中的資料損壞（請參閱https://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665例如）

Question 3

我同意@pehrs 的觀點，值得研究這個問題的熱方面，因為問題會隨著時間的推移而逐漸加劇。你們有什麼樣的伺服器？如今，大多數機架安裝件都配備了大量感測器，可用於監控硬體運作狀況。查看流明感測器。如果是戴爾伺服器，則戴爾奧姆薩包包可能會有幫助。我確信其他大公司也有自己的專有軟體包。

我也可能會拋出一些其他的想法——這些想法與您描述的問題僅在一段時間後出現的場景並不相符，但它們不會造成傷害。

就錯誤日誌而言，您是否在磁碟或 RAID 子系統的日誌中收到任何錯誤訊息？或在 dmesg 中？ Linux軟體-RAID HOTWO有一些關於您要尋找的錯誤類型的信息。像是電纜損壞之類的問題可能不會出現在驅動器的 SMART 自檢中，但您肯定會看到記錄的一些錯誤訊息。

RAID配置是什麼？ /proc/mdstat 中有什麼嗎？例如，如果伺服器有 3 個磁碟機 RAID 5，且其中一個磁碟機損壞，則可能會導致問題。

另外，檢查主機板/SCSI 卡等的韌體版本，看看它是否是最新的，或者是否存在與磁碟 I/O 相關的錯誤已修復。

Answer

我同意@pehrs 的觀點，值得研究這個問題的熱方面，因為問題會隨著時間的推移而逐漸加劇。你們有什麼樣的伺服器？如今，大多數機架安裝件都配備了大量感測器，可用於監控硬體運作狀況。查看流明感測器。如果是戴爾伺服器，則戴爾奧姆薩包包可能會有幫助。我確信其他大公司也有自己的專有軟體包。

我也可能會拋出一些其他的想法——這些想法與您描述的問題僅在一段時間後出現的場景並不相符，但它們不會造成傷害。

就錯誤日誌而言，您是否在磁碟或 RAID 子系統的日誌中收到任何錯誤訊息？或在 dmesg 中？ Linux軟體-RAID HOTWO有一些關於您要尋找的錯誤類型的信息。像是電纜損壞之類的問題可能不會出現在驅動器的 SMART 自檢中，但您肯定會看到記錄的一些錯誤訊息。

RAID配置是什麼？ /proc/mdstat 中有什麼嗎？例如，如果伺服器有 3 個磁碟機 RAID 5，且其中一個磁碟機損壞，則可能會導致問題。

另外，檢查主機板/SCSI 卡等的韌體版本，看看它是否是最新的，或者是否存在與磁碟 I/O 相關的錯誤已修復。

相關內容