R&D向け異機種クラスタソリューション

Question 1

複数のシステムのリソースを 1 つのイメージに結合することはできないという @NikitaKipriyanov の意見に同意します。ただし、過去にはこれを実現した商用製品があり、レイテンシを抑えるために InfiniBand に依存していました (私見では、うまく機能しませんでした)。Slurm はスケジューラとして使用できますが、インタラクティブなジョブに使用することもでき、リソースマネージャとしてより機能させることができます。

各ジョブでは、CPU コアの数、GPU の数と種類、メモリの量などを指定できます。スケジューラは適切な未使用のシステムを選択し、シェルプロンプトを表示します。必要に応じて、X11 転送を利用できます。

また、コンテナは研究開発環境では非常に役立ちます。有用性がわからないからといってコンテナを捨てるべきではありませんが、コンテナはこの問題の解決策ではありません。

Answer

複数のシステムのリソースを 1 つのイメージに結合することはできないという @NikitaKipriyanov の意見に同意します。ただし、過去にはこれを実現した商用製品があり、レイテンシを抑えるために InfiniBand に依存していました (私見では、うまく機能しませんでした)。Slurm はスケジューラとして使用できますが、インタラクティブなジョブに使用することもでき、リソースマネージャとしてより機能させることができます。

各ジョブでは、CPU コアの数、GPU の数と種類、メモリの量などを指定できます。スケジューラは適切な未使用のシステムを選択し、シェルプロンプトを表示します。必要に応じて、X11 転送を利用できます。

また、コンテナは研究開発環境では非常に役立ちます。有用性がわからないからといってコンテナを捨てるべきではありませんが、コンテナはこの問題の解決策ではありません。

Question 2

不可能です。

CPU が異なると、命令も異なる可能性があります。CPU 間でコードを移行する場合、これは悪夢です。
メモリのレイテンシはナノ秒単位、ネットワークのレイテンシは数十マイクロ秒単位です。

ワークロードによっては、ワークロードを複数のコンピューターで実行し、それらの間でデータを通信できるように変換できる場合があります。一部の問題ではこれは簡単で、データセットを小さなパーティションに分割して、それらを並行して処理できます。他のワークロードではこれは困難です。ただし、これにはオペレーティングシステムではなく、ワークロードの変更が必要です。

Answer

不可能です。

CPU が異なると、命令も異なる可能性があります。CPU 間でコードを移行する場合、これは悪夢です。
メモリのレイテンシはナノ秒単位、ネットワークのレイテンシは数十マイクロ秒単位です。

ワークロードによっては、ワークロードを複数のコンピューターで実行し、それらの間でデータを通信できるように変換できる場合があります。一部の問題ではこれは簡単で、データセットを小さなパーティションに分割して、それらを並行して処理できます。他のワークロードではこれは困難です。ただし、これにはオペレーティングシステムではなく、ワークロードの変更が必要です。

R&D向け異機種クラスタソリューション

答え1

答え2

関連情報