Solução de Cluster Heterogêneo para P&D

Question 1

Concordo com @NikitaKipriyanov que você não pode combinar recursos de vários sistemas em uma única imagem, embora existam produtos comerciais que faziam isso no passado e dependiam do infiniband para manter a latência baixa (IMHO, não funcionou bem). Slurm pode ser usado como um agendador, mas você também pode usá-lo para trabalhos interativos e, então, pode ser mais um gerenciador de recursos.

Cada trabalho pode especificar o número de núcleos de CPU, número e tipo de GPUs, quantidade de memória, etc. O agendador então escolherá um sistema apropriado e não utilizado e fornecerá um prompt de shell. O encaminhamento X11 está disponível se necessário.

Além disso, os contêineres podem ser bastante úteis em um ambiente de P&D. Você não deve jogá-los fora porque não vê a utilidade, mas eles não são a solução para este problema.

Answer

Concordo com @NikitaKipriyanov que você não pode combinar recursos de vários sistemas em uma única imagem, embora existam produtos comerciais que faziam isso no passado e dependiam do infiniband para manter a latência baixa (IMHO, não funcionou bem). Slurm pode ser usado como um agendador, mas você também pode usá-lo para trabalhos interativos e, então, pode ser mais um gerenciador de recursos.

Cada trabalho pode especificar o número de núcleos de CPU, número e tipo de GPUs, quantidade de memória, etc. O agendador então escolherá um sistema apropriado e não utilizado e fornecerá um prompt de shell. O encaminhamento X11 está disponível se necessário.

Além disso, os contêineres podem ser bastante úteis em um ambiente de P&D. Você não deve jogá-los fora porque não vê a utilidade, mas eles não são a solução para este problema.

Question 2

Não é possível.

CPUs diferentes significam que as instruções podem ser diferentes. Isto é um pesadelo se você deseja migrar código entre CPUs.
A latência da memória está em nanossegundos, a latência da rede em dezenas de microssegundos.

Dependendo da sua carga de trabalho, pode ser possível traduzi-la para execução em vários computadores e comunicar dados entre eles. Para alguns problemas, isso é trivial e você pode dividir o conjunto de dados em partições menores e trabalhar nelas em paralelo. Para outras cargas de trabalho isso é difícil. Mas isso requer modificações na carga de trabalho, não no sistema operacional.

Answer

Não é possível.

CPUs diferentes significam que as instruções podem ser diferentes. Isto é um pesadelo se você deseja migrar código entre CPUs.
A latência da memória está em nanossegundos, a latência da rede em dezenas de microssegundos.

Dependendo da sua carga de trabalho, pode ser possível traduzi-la para execução em vários computadores e comunicar dados entre eles. Para alguns problemas, isso é trivial e você pode dividir o conjunto de dados em partições menores e trabalhar nelas em paralelo. Para outras cargas de trabalho isso é difícil. Mas isso requer modificações na carga de trabalho, não no sistema operacional.

Solução de Cluster Heterogêneo para P&D

Responder1

Responder2

informação relacionada