LAN 内の複数のサーバーで Slurm などの HPC マネージャーを使用する

Question

はい、それはコンピューティングクラスターです。同じワークロードを担当する複数のコンピューティングノードという広い定義があります。コンピューティングワーカーを実行する複数のホストを持つ大規模なビルドファームが該当します。TOP500 リストの巨大なシステムも同様です。

さらに重要なのは、複数のノードを管理する slurm の機能を活用することです。そうしないと、1 つのコントローラーが自分自身だけを管理するのはかなり複雑になり、よりシンプルなシステムに比べて機能が多くありません。すべてのノードを追加し、パーティションに分割します。

複数のノードを要求するジョブでは、MPI の場合と同様に、プログラムが複数のノードに対応している必要があります。通常の対応していないプログラムの場合は、要求を 1 つのノードに留めるだけです。

ストレージでは、ファイルをノードに送るための何かを設計する必要があります。通常、オプションには次のものがあります。

Answer 1

はい、それはコンピューティングクラスターです。同じワークロードを担当する複数のコンピューティングノードという広い定義があります。コンピューティングワーカーを実行する複数のホストを持つ大規模なビルドファームが該当します。TOP500 リストの巨大なシステムも同様です。

さらに重要なのは、複数のノードを管理する slurm の機能を活用することです。そうしないと、1 つのコントローラーが自分自身だけを管理するのはかなり複雑になり、よりシンプルなシステムに比べて機能が多くありません。すべてのノードを追加し、パーティションに分割します。

複数のノードを要求するジョブでは、MPI の場合と同様に、プログラムが複数のノードに対応している必要があります。通常の対応していないプログラムの場合は、要求を 1 つのノードに留めるだけです。

ストレージでは、ファイルをノードに送るための何かを設計する必要があります。通常、オプションには次のものがあります。

関連情報