Ubuntu Server mdadm drbd ocfs2 kvm が大量のファイル読み込みでハングする

Ubuntu Server mdadm drbd ocfs2 kvm が大量のファイル読み込みでハングする

私は 4 台の Ubuntu 10.04 サーバーを導入しました。これらはクラスター シナリオで 2 台ずつ結合されています。両側にソフトウェア RAID1 ディスク、drbd8、OCFS2 があり、その上でいくつかの KVM マシンが qcow2 ディスクで実行されています。

私はこれに従いました:リンク

corosyncはDRBDとOCFSにのみ使用され、kvmマシンは「手動で」実行されます。

動作しているときは問題ありません。パフォーマンスも I/O も良好ですが、ある時点で 2 つのクラスターのうちの 1 つがハングし始めました。次に、1 つのサーバーだけをオンにして試してみましたが、同じようにハングしました。これは、仮想マシンの 1 つで大量の READ が発生したとき、つまり rsyn バックアップ中に発生するようです。この状況が発生すると、仮想マシンにはアクセスできなくなり、実サーバーは ping に対してかなりの遅延で応答しますが、画面も ssh も使用できません。

私たちにできるのは、強制的にシャットダウン (ボタンを押したままにする) して再起動し、再びオンにしたときにリレー drbd が再同期している RAID をオンにすることだけです。ハングアップするたびに、このような事実がわかります。

片側で数週間にわたって問題が続いた後、今朝、もう一方のクラスターもハングしました。ただし、このクラスターには異なるマザーボード、RAM、KVM インスタンスがあります。共通しているのは、両側の rsync シナリオと Western Digital RAID エディション ディスクの読み取りです。

このような問題を解決するためのヒントを誰か教えてくれませんか?

更新: すべてのイメージを qcow2 から raw に変換し、仮想マシン内から noatime と nodiratime を使用してファイル システムをマウントしました。rsync には ionice を使用しましたが、今朝、ユーザーが samba 共有から大量のファイルを読み取っているときに再びハングしました。現在、仮想マシンのイメージを ocfs2 から ext3 に移動していますが、これは本当に失敗です... アイデアがあれば歓迎します。

答え1

別のストレージ スキームを試す必要があるように思えます (ただし、VM で RAW 事前割り当てディスクを使用すると、オーバーヘッドの一部を回避できます。また、スナップショットを使用する場合にのみ qcow2 が必要になります)

クラスタリングなしでローカル ディスクのみを使用して、VM は安定して実行されていますか?

他のすべてが壊れないように、ionice を使用して rsync プロセスに高い nice レベルを割り当てようとしましたか?

ocfs2の代わりにGFSでテストしましたか? 結果が良くなるかもしれませんし、リンクを投稿したガイドに説明があります。

関連情報