2.6.32-22-server の読み取り/書き込み時にファイルが破損する (多くのカーネルで発生)

2.6.32-22-server の読み取り/書き込み時にファイルが破損する (多くのカーネルで発生)

サーバーが一定期間 (約 1 週間/数日) 稼働した後、サーバーが破損したデータを読み取り始めるという問題が発生しています。たとえば、新規起動後にファイルの sha1sum を実行しても、結果は変わりません。ただし、しばらくするとセグメント違反が発生し始め、それ以降、このファイルを読み取るたびに異なる sha1sum が返されます。

長いテストでSMARTをチェックし、拡張memtest86+(12パス)を実行しました

私の lspci は次のとおりです:

00:00.0 ホスト ブリッジ: Advanced Micro Devices [AMD] RS780 ホスト ブリッジ
00:01.0 PCI ブリッジ: Advanced Micro Devices [AMD] RS780 PCI から PCI へのブリッジ (int gfx)
00:06.0 PCI ブリッジ: Advanced Micro Devices [AMD] RS780 PCI から PCI へのブリッジ (PCIE ポート 2)
00:07.0 PCI ブリッジ: Advanced Micro Devices [AMD] RS780 PCI から PCI へのブリッジ (PCIE ポート 3)
00:11.0 SATA コントローラ: ATI Technologies Inc SB700/SB800 SATA コントローラ [AHCI モード]
00:12.0 USB コントローラ: ATI Technologies Inc SB700/SB800 USB OHCI0 コントローラ
00:12.1 USB コントローラ: ATI Technologies Inc SB700 USB OHCI1 コントローラ
00:12.2 USB コントローラ: ATI Technologies Inc SB700/SB800 USB EHCI コントローラ
00:13.0 USB コントローラ: ATI Technologies Inc SB700/SB800 USB OHCI0 コントローラ
00:13.1 USB コントローラ: ATI Technologies Inc SB700 USB OHCI1 コントローラ
00:13.2 USB コントローラ: ATI Technologies Inc SB700/SB800 USB EHCI コントローラ
00:14.0 SMBus: ATI Technologies Inc SBx00 SMBus コントローラ (rev 3c)
00:14.1 IDE インターフェース: ATI Technologies Inc SB700/SB800 IDE コントローラ
00:14.3 ISA ブリッジ: ATI Technologies Inc SB700/SB800 LPC ホスト コントローラ
00:14.4 PCI ブリッジ: ATI Technologies Inc SBx00 PCI から PCI へのブリッジ
00:14.5 USB コントローラ: ATI Technologies Inc SB700/SB800 USB OHCI2 コントローラ
00:18.0 ホスト ブリッジ: Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] HyperTransport 構成
00:18.1 ホスト ブリッジ: Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] アドレス マップ
00:18.2 ホスト ブリッジ: Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] DRAM コントローラ
00:18.3 ホストブリッジ: Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] その他の制御
00:18.4 ホスト ブリッジ: Advanced Micro Devices [AMD] K10 [Opteron、Athlon64、Sempron] リンク コントロール
01:05.0 VGA互換コントローラ: ATI Technologies Inc Radeon HD 3300グラフィックス
01:05.1 オーディオデバイス: ATI Technologies Inc RS780 Azalia コントローラ
02:00.0 イーサネット コントローラ: Atheros Communications Atheros AR8121/AR8113/AR8114 PCI-E イーサネット コントローラ (rev b0)
03:00.0 FireWire (IEEE 1394): VIA Technologies, Inc. デバイス 3403

これについては本当に助けが必要です。原因は何かご存知ですか? 完全にランダムに発生し、再起動するまで解消されないため、非常にイライラしています。このサーバーでは、仮想化に KVM を使用し、ソフトウェア RAID に MD を使用しています。プロセッサは Phenom II X4 965 です。ただし、これは非 RAID パーティションにホストされているファイルにも影響するため、ソフトウェア RAID が原因ではないと思います。原因はわかりません。

アップデート2010 年 6 月 21 日 わかりました。マザーボードを交換しました。それでも同じエラーが出ます。CPU エラーは見つかりません。ディスクはすべてスマート テストで正常と報告されています。これが何なのか、誰かわかる人はいませんか? 頭を抱えています。

アップデート2010 年 6 月 22 日 ログをチェックし、別のファイルシステムを試しましたが、それでも同じです。ちなみに、これはすべてホスト VM 上でも発生します。

答え1

私の直感では、これはハードウェアの問題であり、おそらく熱に関連していると思われます (実行時間が経過すると現れるため)。おそらくサウスブリッジまたは関連するハードウェアに問題があると思われます。

サウスブリッジで広範なトランザクション テストを実行するか、マザーボードを交換することを検討してください。

OS が安定しているのにランダムな IO エラーが発生する場合は、通常、CPU/メモリに問題があるとは考えられません。これらのエラーが発生すると、OS がクラッシュし、他のソフトウェアも破損する傾向があるためです。ただし、カーネルの大部分は起動時にディスクから読み込まれ、スワップアウトされることはないため、Linux システムはディスクから適切に読み取れなくても驚くほど安定しています。

答え2

破損はホスト自体で発生しますか、それともゲストマシンで発生しますか? qemu-kvm には、大規模な仮想ディスクでデータ破損を引き起こす既知のバグがあります (バグ:例えば)

答え3

この問題が時間とともに徐々に大きくなるので、熱的側面を調べる価値があるという@pehrsの意見に賛成です。どのようなサーバーをお持ちですか? 最近のラックマウントのほとんどには、ハードウェアの状態を監視するために使用できるセンサーが多数付属しています。lmセンサーDellのサーバーの場合、Dellオムサパッケージが役に立つかもしれません。他の大手企業も独自のパッケージを持っているはずです。

他のアイデアもいくつか提案しておきます。これらは、しばらくしてから問題が現れるという、あなたが説明したシナリオとは実際には一致しませんが、害にはならないと思います。

エラーログに関しては、ディスクまたはRAIDサブシステムからのログにエラーメッセージが表示されていますか?またはdmesgにエラーメッセージが表示されていますか?Linuxソフトウェア RAID HOTWO探しているエラーの種類に関する情報がいくつかあります。不良ケーブルなどはドライブの SMART セルフテストでは表示されないかもしれませんが、いくつかのエラー メッセージが記録されていることは間違いありません。

RAID 構成はどのようなものですか? /proc/mdstat に何かありますか? (たとえば) サーバーに 3 ドライブの RAID 5 があり、ドライブの 1 つが不良である場合、問題が発生する可能性があります。

また、マザーボード/SCSI カードなどのファームウェア リビジョンをチェックして、最新のものであるか、ディスク I/O に関連するバグが修正されているかどうかを確認します。

関連情報