在 LAN 中的多台伺服器上使用 Slurm 等 HPC 管理器

在 LAN 中的多台伺服器上使用 Slurm 等 HPC 管理器

我可以存取一組透過 1Gb LAN 連接的伺服器,每台伺服器都有 40 多個核心和 Ubuntu 作業系統。他們都有一個共同的 NAS。我在其中幾台上安裝了SLURM,並進行了配置,使得每台伺服器既是控制節點又是計算節點,並且伺服器之間沒有連接。所需的分析是生物資訊學的,並且受 CPU 限制,但檔案為 GB 級。我的問題如下:

  1. 這不是計算集群,對嗎?將這些伺服器連結到單一叢集中需要什麼?
  2. 在此配置上使用 Slurm 等 HPC 管理器是否有效?數據將如何共享?他們確實有一個通用的 NAS,但直接在 NAS 上運行任何計算與本地文件相比非常慢。

我理想的解決方案是將檔案拉到本機電腦(理想情況下無論其位置如何,但 NAS 可能是公共集線器)執行計算並可能返回輸出檔案。這是一個不合理的要求還是一個已經解決的問題?

先致謝!

答案1

是的,那是一個計算集群。我有一個廣泛的定義,即多個計算節點承擔相同的工作負載。具有運行運算工作執行緒的多個主機的大型建置場符合資格。 TOP500 清單中的大型系統也是如此。

更重要的是,利用slurm的能力來管理多個節點。否則,一個控制器僅管理自身是相當複雜的,因為與更簡單的系統相比,功能並不多。新增所有節點,並將它們劃分為分區。

請求多個節點的作業要求程式能夠感知多個節點,如 MPI 中。對於常規的不知情程序,只需將請求保留到一個節點即可。

存儲,您需要設計一些東西來將文件傳輸到節點。通常,選項包括:

  • 將檔案複製到每個節點的本機儲存。 (slurm sbcast)
  • 將分散式儲存分佈在多個節點的磁碟上。 (Lustre、Ceph)
  • 每個節點上安裝的高效能檔案共用。 (全快閃陣列服務 NFS)

相關內容