2.6.32-22-server の読み取り/書き込み時にファイルが破損する (多くのカーネルで発生)

Question 1

私の直感では、これはハードウェアの問題であり、おそらく熱に関連していると思われます (実行時間が経過すると現れるため)。おそらくサウスブリッジまたは関連するハードウェアに問題があると思われます。

サウスブリッジで広範なトランザクションテストを実行するか、マザーボードを交換することを検討してください。

OS が安定しているのにランダムな IO エラーが発生する場合は、通常、CPU/メモリに問題があるとは考えられません。これらのエラーが発生すると、OS がクラッシュし、他のソフトウェアも破損する傾向があるためです。ただし、カーネルの大部分は起動時にディスクから読み込まれ、スワップアウトされることはないため、Linux システムはディスクから適切に読み取れなくても驚くほど安定しています。

Answer

私の直感では、これはハードウェアの問題であり、おそらく熱に関連していると思われます (実行時間が経過すると現れるため)。おそらくサウスブリッジまたは関連するハードウェアに問題があると思われます。

サウスブリッジで広範なトランザクションテストを実行するか、マザーボードを交換することを検討してください。

OS が安定しているのにランダムな IO エラーが発生する場合は、通常、CPU/メモリに問題があるとは考えられません。これらのエラーが発生すると、OS がクラッシュし、他のソフトウェアも破損する傾向があるためです。ただし、カーネルの大部分は起動時にディスクから読み込まれ、スワップアウトされることはないため、Linux システムはディスクから適切に読み取れなくても驚くほど安定しています。

Question 2

破損はホスト自体で発生しますか、それともゲストマシンで発生しますか? qemu-kvm には、大規模な仮想ディスクでデータ破損を引き起こす既知のバグがあります (バグ:例えば）

Answer

破損はホスト自体で発生しますか、それともゲストマシンで発生しますか? qemu-kvm には、大規模な仮想ディスクでデータ破損を引き起こす既知のバグがあります (バグ:例えば）

Question 3

この問題が時間とともに徐々に大きくなるので、熱的側面を調べる価値があるという@pehrsの意見に賛成です。どのようなサーバーをお持ちですか? 最近のラックマウントのほとんどには、ハードウェアの状態を監視するために使用できるセンサーが多数付属しています。lmセンサーDellのサーバーの場合、Dellオムサパッケージが役に立つかもしれません。他の大手企業も独自のパッケージを持っているはずです。

他のアイデアもいくつか提案しておきます。これらは、しばらくしてから問題が現れるという、あなたが説明したシナリオとは実際には一致しませんが、害にはならないと思います。

エラーログに関しては、ディスクまたはRAIDサブシステムからのログにエラーメッセージが表示されていますか？またはdmesgにエラーメッセージが表示されていますか？Linuxソフトウェア RAID HOTWO探しているエラーの種類に関する情報がいくつかあります。不良ケーブルなどはドライブの SMART セルフテストでは表示されないかもしれませんが、いくつかのエラーメッセージが記録されていることは間違いありません。

RAID 構成はどのようなものですか? /proc/mdstat に何かありますか? (たとえば) サーバーに 3 ドライブの RAID 5 があり、ドライブの 1 つが不良である場合、問題が発生する可能性があります。

また、マザーボード/SCSI カードなどのファームウェアリビジョンをチェックして、最新のものであるか、ディスク I/O に関連するバグが修正されているかどうかを確認します。

Answer