Гетерогенное кластерное решение для НИОКР

Question 1

Согласен с @NikitaKipriyanov, что нельзя объединить ресурсы из нескольких систем в один образ, хотя в прошлом были коммерческие продукты, которые делали это, и они полагались на infiniband для снижения задержки (на мой взгляд, это не очень хорошо работало). Slurm можно использовать как планировщик, но его также можно использовать для интерактивных задач, и тогда он может быть больше похож на менеджер ресурсов.

Каждое задание может указывать количество ядер процессора, количество и тип графических процессоров, объем памяти и т. д. Затем планировщик выберет подходящую и неиспользуемую систему и выдаст вам приглашение оболочки. При необходимости доступна переадресация X11.

Также контейнеры могут быть весьма полезны в среде НИОКР. Вы не должны выбрасывать их, потому что вы не видите в них полезности, но они не являются решением этой проблемы.

Answer

Согласен с @NikitaKipriyanov, что нельзя объединить ресурсы из нескольких систем в один образ, хотя в прошлом были коммерческие продукты, которые делали это, и они полагались на infiniband для снижения задержки (на мой взгляд, это не очень хорошо работало). Slurm можно использовать как планировщик, но его также можно использовать для интерактивных задач, и тогда он может быть больше похож на менеджер ресурсов.

Каждое задание может указывать количество ядер процессора, количество и тип графических процессоров, объем памяти и т. д. Затем планировщик выберет подходящую и неиспользуемую систему и выдаст вам приглашение оболочки. При необходимости доступна переадресация X11.

Также контейнеры могут быть весьма полезны в среде НИОКР. Вы не должны выбрасывать их, потому что вы не видите в них полезности, но они не являются решением этой проблемы.

Question 2

Это невозможно.

Разные ЦП означают, что инструкции могут отличаться. Это кошмар, если вы хотите перенести код между ЦП.
Задержка памяти составляет наносекунды, задержка сети — десятки микросекунд.

В зависимости от вашей рабочей нагрузки, может быть возможно перевести вашу рабочую нагрузку для запуска на нескольких компьютерах и передачи данных между ними. Для некоторых задач это тривиально, и вы можете разбить набор данных на более мелкие разделы и работать с ними параллельно. Для других рабочих нагрузок это сложно. Но это требует изменений рабочей нагрузки, а не операционной системы.

Answer

Это невозможно.

Разные ЦП означают, что инструкции могут отличаться. Это кошмар, если вы хотите перенести код между ЦП.
Задержка памяти составляет наносекунды, задержка сети — десятки микросекунд.

В зависимости от вашей рабочей нагрузки, может быть возможно перевести вашу рабочую нагрузку для запуска на нескольких компьютерах и передачи данных между ними. Для некоторых задач это тривиально, и вы можете разбить набор данных на более мелкие разделы и работать с ними параллельно. Для других рабочих нагрузок это сложно. Но это требует изменений рабочей нагрузки, а не операционной системы.

Гетерогенное кластерное решение для НИОКР

решение1

решение2

Связанный контент