Использование HPC-менеджеров, таких как Slurm, на нескольких серверах в локальной сети

Question

Да, это вычислительный кластер. У меня есть широкое определение, как несколько вычислительных узлов, которым поручена одна и та же рабочая нагрузка. Большая ферма сборки с несколькими хостами, на которых запущены вычислительные рабочие процессы, подходит. То же самое касается и огромных систем из списка TOP500.

Что еще важнее, используйте возможности slurm по управлению несколькими узлами. В противном случае, один контроллер, управляющий только собой, — это довольно сложная задача, так как функций у него не так много по сравнению с более простыми системами. Добавьте все узлы и разделите их на разделы.

Задания, запрашивающие более одного узла, требуют, чтобы программы были осведомлены о нескольких узлах, как в MPI. Для обычных неосведомленных программ просто оставьте запросы на одном узле.

Хранилище, вам нужно будет спроектировать что-то, чтобы доставлять файлы на узлы. Обычно варианты включают:

Скопируйте файлы в локальное хранилище каждого узла. (slurm sbcast)
Распределить распределенное хранилище по дискам многих узлов. (Lustre, Ceph)
Высокопроизводительный файловый ресурс, смонтированный на каждом узле. (Все флэш-массивы обслуживают NFS)

Answer 1

Да, это вычислительный кластер. У меня есть широкое определение, как несколько вычислительных узлов, которым поручена одна и та же рабочая нагрузка. Большая ферма сборки с несколькими хостами, на которых запущены вычислительные рабочие процессы, подходит. То же самое касается и огромных систем из списка TOP500.

Что еще важнее, используйте возможности slurm по управлению несколькими узлами. В противном случае, один контроллер, управляющий только собой, — это довольно сложная задача, так как функций у него не так много по сравнению с более простыми системами. Добавьте все узлы и разделите их на разделы.

Задания, запрашивающие более одного узла, требуют, чтобы программы были осведомлены о нескольких узлах, как в MPI. Для обычных неосведомленных программ просто оставьте запросы на одном узле.

Хранилище, вам нужно будет спроектировать что-то, чтобы доставлять файлы на узлы. Обычно варианты включают:

Скопируйте файлы в локальное хранилище каждого узла. (slurm sbcast)
Распределить распределенное хранилище по дискам многих узлов. (Lustre, Ceph)
Высокопроизводительный файловый ресурс, смонтированный на каждом узле. (Все флэш-массивы обслуживают NFS)

Использование HPC-менеджеров, таких как Slurm, на нескольких серверах в локальной сети

решение1

Связанный контент