Solución de clúster heterogéneo para I+D

Question 1

De acuerdo con @NikitaKipriyanov en que no se pueden combinar recursos de múltiples sistemas en una sola imagen, aunque ha habido productos comerciales que hicieron esto en el pasado y confiaron en infiniband para mantener baja la latencia (en mi humilde opinión, no funcionó bien). Slurm se puede utilizar como programador, pero también se puede utilizar para trabajos interactivos y luego puede ser más bien un administrador de recursos.

Cada trabajo puede especificar la cantidad de núcleos de CPU, la cantidad y el tipo de GPU, la cantidad de memoria, etc. Luego, el programador seleccionará un sistema apropiado y no utilizado y le dará un indicador de shell. El reenvío X11 está disponible si es necesario.

Además, los contenedores pueden resultar muy útiles en un entorno de I+D. No debes tirarlos porque no ves la utilidad pero no son la solución a este problema.

Answer

De acuerdo con @NikitaKipriyanov en que no se pueden combinar recursos de múltiples sistemas en una sola imagen, aunque ha habido productos comerciales que hicieron esto en el pasado y confiaron en infiniband para mantener baja la latencia (en mi humilde opinión, no funcionó bien). Slurm se puede utilizar como programador, pero también se puede utilizar para trabajos interactivos y luego puede ser más bien un administrador de recursos.

Cada trabajo puede especificar la cantidad de núcleos de CPU, la cantidad y el tipo de GPU, la cantidad de memoria, etc. Luego, el programador seleccionará un sistema apropiado y no utilizado y le dará un indicador de shell. El reenvío X11 está disponible si es necesario.

Además, los contenedores pueden resultar muy útiles en un entorno de I+D. No debes tirarlos porque no ves la utilidad pero no son la solución a este problema.

Question 2

No es posible.

Diferentes CPU significan que las instrucciones pueden diferir. Esto es una pesadilla si desea migrar código entre CPU.
La latencia de la memoria es de nanosegundos, la latencia de la red es de decenas de microsegundos.

Dependiendo de su carga de trabajo, es posible traducir su carga de trabajo para ejecutarla en varias computadoras y comunicar datos entre ellas. Para algunos problemas, esto es trivial y puede dividir el conjunto de datos en particiones más pequeñas y trabajar en ellas en paralelo. Para otras cargas de trabajo esto es difícil. Pero esto requiere modificaciones en la carga de trabajo, no en el sistema operativo.

Answer

No es posible.

Diferentes CPU significan que las instrucciones pueden diferir. Esto es una pesadilla si desea migrar código entre CPU.
La latencia de la memoria es de nanosegundos, la latencia de la red es de decenas de microsegundos.

Dependiendo de su carga de trabajo, es posible traducir su carga de trabajo para ejecutarla en varias computadoras y comunicar datos entre ellas. Para algunos problemas, esto es trivial y puede dividir el conjunto de datos en particiones más pequeñas y trabajar en ellas en paralelo. Para otras cargas de trabajo esto es difícil. Pero esto requiere modificaciones en la carga de trabajo, no en el sistema operativo.

Solución de clúster heterogéneo para I+D

Respuesta1

Respuesta2

información relacionada