
到目前為止我有10台用於高效能運算、面向電力運算的伺服器。我的用戶需要使用 qmake 啟動多個進程。使用者習慣使用 ubuntu 9.10,並且可以使用儲存庫中的軟體。
我已將 ubuntu 9.10 部署到所有 10 台伺服器(pxe rock)。
到目前為止,我們使用並行 ssh 和叢集 ssh,這允許向所有伺服器啟動相同的進程。使用此工具,伺服器保持獨立,但具有相同的軟體和相同的啟動命令。
現在,我們想要進入下一步,將所有伺服器視為一個伺服器,並擁有其他 9 台伺服器的所有資源,就好像它的資源一樣。
處理時間和設計啟動命令的時間差異將會很大。
有什麼關於使用哪些軟體非常有用的建議嗎?
謝謝
答案1
你所說的這個叫做單一系統映像 (SSI)。 Linux 上該方案最常見的變體是透過以下方式實現的莫西克斯。雖然它確實在系統管理方面提供了一些優勢,但一般來說,如果不使用某種形式的MPI。基本上,無論您是否使用在 GridEngine 上執行的「標準」集群,還是將系統建置到單一映像中,您仍然需要修改所有軟體以便能夠跨越多個節點。
答案2
從效能角度來看,叢集不是單一機器,檔案系統/記憶體局部性對效能很重要。
在應用程式層級執行操作雖然不那麼通用,但資源效率更高。透過設定 distcc 可以顯著加快您的 qmake 範例。
答案3
最後我使用了Sun Grid Engine。
我已在私人 wiki 中進行了記錄,並剪下並貼上到了我的部落格上。我認為即使沒有翻譯它也很有用。 ;)
部落格條目:http://supportrecerca.barcelonamedia.org/blog/?p=240
如果有人想要 wiki 程式碼,請在這裡詢問。
謝謝。
答案4
我以前從未實現過,但這聽起來像是貝奧武甫簇會為你想做的事情工作。我過去已經閱讀了很多這方面的內容,對於一些更簡單的過程,根據您想要實現的目標,可能需要很少的重新編碼。