Usando gerenciadores HPC como Slurm em vários servidores em LAN

Question

Sim, isso é um cluster de computação. Tenho uma definição ampla, como vários nós de computação encarregados da mesma carga de trabalho. Grande farm de construção com vários hosts executando trabalhadores de computação qualificados. O mesmo acontece com os enormes sistemas da lista TOP500.

Mais importante ainda, faça uso da capacidade do slurm para gerenciar vários nós. Caso contrário, um controlador gerenciando apenas a si mesmo é bastante complexo, pois não possui muitos recursos em comparação com sistemas mais simples. Adicione todos os nós e divida-os em partições.

Jobs que solicitam mais de um nó exigem que os programas reconheçam vários nós, como no MPI. Para programas inconscientes regulares, basta manter as solicitações em um nó.

Armazenamento, você precisará projetar algo para levar os arquivos aos nós. Normalmente as opções incluem:

Copie os arquivos para o armazenamento local de cada nó. (slurm sbcast)
Distribua um armazenamento distribuído em vários discos de nós. (Lustre, Ceph)
Compartilhamento de arquivos de alto desempenho montado em cada nó. (Todos os arrays flash servindo NFS)

Answer 1

Sim, isso é um cluster de computação. Tenho uma definição ampla, como vários nós de computação encarregados da mesma carga de trabalho. Grande farm de construção com vários hosts executando trabalhadores de computação qualificados. O mesmo acontece com os enormes sistemas da lista TOP500.

Mais importante ainda, faça uso da capacidade do slurm para gerenciar vários nós. Caso contrário, um controlador gerenciando apenas a si mesmo é bastante complexo, pois não possui muitos recursos em comparação com sistemas mais simples. Adicione todos os nós e divida-os em partições.

Jobs que solicitam mais de um nó exigem que os programas reconheçam vários nós, como no MPI. Para programas inconscientes regulares, basta manter as solicitações em um nó.

Armazenamento, você precisará projetar algo para levar os arquivos aos nós. Normalmente as opções incluem:

Copie os arquivos para o armazenamento local de cada nó. (slurm sbcast)
Distribua um armazenamento distribuído em vários discos de nós. (Lustre, Ceph)
Compartilhamento de arquivos de alto desempenho montado em cada nó. (Todos os arrays flash servindo NFS)

Usando gerenciadores HPC como Slurm em vários servidores em LAN

Responder1

informação relacionada