HPC / EC2 - 信頼性のための NFS の最適化

HPC / EC2 - 信頼性のための NFS の最適化

AWS-EC2 で、NFS ファイルサーバーと多数のクライアントで構成される Linux 仮想マシンのクラスターをセットアップしました。クライアント数が 20 を超えると、I/O が集中し、ファイルの整合性が失われます。たとえば、クライアントがサーバーに書き込んだ gzip 圧縮ファイルが破損します。

NFSパラメータを増やすのに最適なセットは何なのか知りたいのですが信頼性この環境でのデータ転送。

現時点でのマウント フラグは次のとおりです。

Flags:  rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2

MTU サイズは 1500、NFS デーモンの数は 8 です。

rsize と wsize を MTU 以下に減らし、NFS デーモンの数を増やす必要がありますか?

他に改善できる点はありますか?

どうもありがとう。

答え1

使用されているクラスタのサイズによっては、次のような並列ファイルシステムへの移行を検討することをお勧めします。輝きあるいは、クラスターが正しく構成されている場合、各ノードは DNS 経由またはルックアップによって他のすべてのノードを認識し/etc/hosts、パスワードなしでアクセスするための適切な SSH キーを持っている必要があります。

この場合、各ノードは計算/圧縮の完了時にファイルをコピーするだけで済み、NFS は不要になります。このソリューションでは最適なパフォーマンスは得られない可能性がありますが、計算ノード、ネットワーク、ストレージの仮想化の性質によっては、良い選択肢となる可能性があります。

どのようなクラスタ管理/プロビジョニングシステムを使用していますか?通常、ヘッドノードのセットアップ中に、コンピューティングノード用の適切な共有ストレージもセットアップされます。次のようなツールを使用すると、ワレウルフまたはコンピューティング ノードが正しくプロビジョニングされていることを確認するのに役立つ可能性があり、これらのツールを使用してクラスターを設定するためのガイドやリファレンス デザインがオンラインで多数提供されています。

関連情報