如何找到單一事件文件內容損壞的原因？

2024-6-25 • tag-icon

幾天后，我將一個大檔案（56GB）從工作站複製到檔案伺服器。檢查副本後，我發現它與原始文件有幾個位元組不同。

細節：

源系統：
- Medion Akoya P5350 D
- Windows 8.1 專業版 64 位
- SATA 硬碟 (NTFS)
目的地系統：
- HP ProLiant MicroServer N36L、ECC RAM
- Windows Server 2012 R2 標準版
- 儲存空間上的 ReFS 2 路鏡像

該檔案透過在工作站上拖放從本機磁碟複製到網路共用資料夾（在伺服器上）。檔案大小為 56886041991 位元組。

一天後以同樣的方式完成的第二個副本沒問題（透過 md5sum 檢查）。比較發現有 97 個位元組不同。（見下文）我看到的唯一模式是損壞的位元組聚集在三組中，其中每個第 128 個位元組都發生更改。

我能做些什麼？從哪裡開始尋找原因呢？它不能是伺服器上的磁碟，因為它們會在損壞的情況下報告讀取錯誤，即使沒有，ReFS也不會注意到錯誤的校驗和並從另一個磁碟讀取磁區，如果該磁碟也損壞了，它會會（應該）報告讀取錯誤。 SATA有CRC校驗。 RAM 有 ECC。網路有 2 層校驗和。工作站沒有 ECC 記憶體。也許是網路驅動程式錯誤？

輸出cmp -l：看這裡

同時進行的其他測試：

24小時的memtest86+ v5.01兩台電腦都沒有錯誤
24小時的memtest86 v4.3.7兩台電腦都沒有錯誤
聰明的長測試在所有硬碟上：沒有錯誤（除了我知道有一些壞扇區的硬碟，它們位於活動分區之外）
md5sum /dev/sdX循環中：在 5TB 磁碟上執行 5 次，在其他磁碟上執行 20 次以上 - 未偵測到錯誤
依照原來的方法重複複製操作10次，檢查結果：沒有錯誤

我猜這是一道孤獨的宇宙射線...

相關內容