Heterogene Cluster-Lösung für F&E

Question 1

Ich stimme @NikitaKipriyanov zu, dass Sie Ressourcen aus mehreren Systemen nicht in einem einzigen Image kombinieren können, obwohl es in der Vergangenheit kommerzielle Produkte gab, die dies taten und sich auf Infiniband verließen, um die Latenz niedrig zu halten (meiner Meinung nach hat es nicht gut funktioniert). Slurm kann als Scheduler verwendet werden, aber Sie können es auch für interaktive Jobs verwenden und es kann dann eher ein Ressourcenmanager sein.

Für jeden Job können die Anzahl der CPU-Kerne, die Anzahl und der Typ der GPUs, die Speichermenge usw. angegeben werden. Der Scheduler wählt dann ein geeignetes und ungenutztes System aus und gibt Ihnen eine Shell-Eingabeaufforderung. Bei Bedarf ist X11-Weiterleitung verfügbar.

Container können in einer F&E-Umgebung außerdem sehr nützlich sein. Sie sollten sie nicht wegwerfen, weil Sie den Nutzen nicht erkennen, aber sie sind nicht die Lösung für dieses Problem.

Answer

Ich stimme @NikitaKipriyanov zu, dass Sie Ressourcen aus mehreren Systemen nicht in einem einzigen Image kombinieren können, obwohl es in der Vergangenheit kommerzielle Produkte gab, die dies taten und sich auf Infiniband verließen, um die Latenz niedrig zu halten (meiner Meinung nach hat es nicht gut funktioniert). Slurm kann als Scheduler verwendet werden, aber Sie können es auch für interaktive Jobs verwenden und es kann dann eher ein Ressourcenmanager sein.

Für jeden Job können die Anzahl der CPU-Kerne, die Anzahl und der Typ der GPUs, die Speichermenge usw. angegeben werden. Der Scheduler wählt dann ein geeignetes und ungenutztes System aus und gibt Ihnen eine Shell-Eingabeaufforderung. Bei Bedarf ist X11-Weiterleitung verfügbar.

Container können in einer F&E-Umgebung außerdem sehr nützlich sein. Sie sollten sie nicht wegwerfen, weil Sie den Nutzen nicht erkennen, aber sie sind nicht die Lösung für dieses Problem.

Question 2

Es ist nicht möglich.

Unterschiedliche CPUs bedeuten, dass die Anweisungen unterschiedlich sein können. Das ist ein Albtraum, wenn Sie Code zwischen CPUs migrieren möchten.
Die Speicherlatenz beträgt Nanosekunden, die Netzwerklatenz einige zehn Mikrosekunden.

Abhängig von Ihrer Arbeitslast kann es möglich sein, Ihre Arbeitslast so zu übersetzen, dass sie auf mehreren Computern ausgeführt wird und Daten zwischen ihnen ausgetauscht werden. Bei manchen Problemen ist dies trivial und Sie können den Datensatz in kleinere Partitionen aufteilen und parallel daran arbeiten. Bei anderen Arbeitslasten ist dies schwierig. Dies erfordert jedoch Änderungen an der Arbeitslast, nicht am Betriebssystem.

Answer

Es ist nicht möglich.

Unterschiedliche CPUs bedeuten, dass die Anweisungen unterschiedlich sein können. Das ist ein Albtraum, wenn Sie Code zwischen CPUs migrieren möchten.
Die Speicherlatenz beträgt Nanosekunden, die Netzwerklatenz einige zehn Mikrosekunden.

Abhängig von Ihrer Arbeitslast kann es möglich sein, Ihre Arbeitslast so zu übersetzen, dass sie auf mehreren Computern ausgeführt wird und Daten zwischen ihnen ausgetauscht werden. Bei manchen Problemen ist dies trivial und Sie können den Datensatz in kleinere Partitionen aufteilen und parallel daran arbeiten. Bei anderen Arbeitslasten ist dies schwierig. Dies erfordert jedoch Änderungen an der Arbeitslast, nicht am Betriebssystem.

Heterogene Cluster-Lösung für F&E

Antwort1

Antwort2

verwandte Informationen