高速I/O時にネットワークファイルシステムが失敗する

Question

長年にわたり学んだいくつかの提案。

NFS サーバーの負荷を最小限に抑えます。

NFS エクスポートオプションを設定します。async,insecure,no_subtree_check

NFSマウントオプションを設定するsoft,noatime,nodiratime,nolock,vers=3

また、noatime,nodiratimeデータ/tmp/スクラッチマウントにも設定します。負荷を軽減するために、NFS 暗号化がオフになっていることを確認します。NFS ロックプロセスを停止します。

すべてのホスト上のネットワークに対して JUMBO フレームを有効にしてみます (ネット機器でサポートされている場合) - MTU を 9k 程度に設定します。
ランダム書き込み IO には必ず RAID10 ストレージを使用してください (RAID5/6 は絶対に使用しないでください)。SSD はありますか?
開いている FS ハンドルの数を最大化します (一部のシステムではデフォルトは 2K)。これを 1M 程度に設定します。
入力データを含むマッピングデータベースをローカルスクラッチノードストレージにコピーし、結果の SAM ファイルを別の手順として結合/並べ替える可能性はありますか?
処理されるチャンクのサイズを増やします (少なくとも 30 分以上処理されるようにします)。
もし可能なら可能な限り高いレベルでジョブを分割する(10 台のホストを使用して各ゲノムを順番にマッピングするのではなく、10 個の個別のゲノム/サンプルを 10 個の異なるノードで並行してマッピング/ソートしてみてください)。すべてのプロセスが完了したら、チェックポイントを試みます。
プログラムソースを変更して、4k ではなく 1M などの大きなチャンクでデータを読み取ります。
CPU/RAM 相互接続の競合に注意してください (特に AMD 4-8 ソケットシステム)。48 コアボックスで 12-24 スレッドを実行すると、48 スレッドよりはるかに高速になる場合があります。さまざまな使用率レベルを試してください。NUMA がオンになっており、マルチ CPU システム用に構成されていることを確認してください。NUMA を有効にして再コンパイルしてください。

PS: 効率的なクラスターの管理は、1,000 人以上の作業員がいる建設現場の計画/管理に似ています...

Answer 1