在伺服器中使用消費級(高階)GPU 的注意事項?

在伺服器中使用消費級(高階)GPU 的注意事項?

動機:

首先,即使我有一些電腦科學、軟體開發和伺服器 Linux 管理方面的知識,我也從未研究過伺服器硬件,而且我對它完全是「新手」。很抱歉,如果這個問題對你們大多數人來說都是微不足道的。

我正在開發一個具有相當密集(單點)運算需求的軟體,為了達到所需的 TFlops,我選擇了 OpenCL (2.1) 框架並在高階消費級 AMD 顯示卡上執行大部分運算,主要使用 CPU驅動GPU( Linux 作業系統)。我現在希望透過多台機器來擴展它。

看看如何組織這些機器,很快就發現標準(消費級)ATX 塔式機並不理想:每個品牌都有自己的機箱形狀,它們基本上無法輕鬆方便地堆疊在19 英寸機箱中,並且具有良好的冷卻氣流、共享APC、電纜管理等。

帶著這個目標,我開始尋找有伺服器的機架櫃,並發現:

  • 像Instinct/Tesla 這樣專為HPC 設計的GPU 的成本比消費類GPU 高出一個數量級,主要是為了帶來雙浮點,這在消費類設備上速度「慢」(而且因為它們可以以這個價格出售給企業)。
  • 即使使用這些 GPU,也需要 PCI-Express 墊片
  • GPU 就緒伺服器僅允許最多 2 插槽顯示卡(目前高階消費型 GPU 通常為 3 插槽)。
  • 我發現 ATX 3U 或 4U 機箱專為 19" 機櫃設計。但是,嘿!安裝其中一個帶有消費性硬體的機箱將排除 ECC、多個 APC 等。

問題:

購買用於託管 1 或 2 個消費級 GPU 的伺服器時需要考慮什麼?

我已經花了很多時間在網路上查找,但無法對這個問題有基本的了解,例如,以下是我想到的一些想法:

  • 這是個好主意嗎?一些文字(網頁)抱怨這些系統很難協同工作、不相容、驅動程式問題等。
  • 2U-3U伺服器機箱都可以安裝3槽顯示卡嗎?或兩個?
  • 一些伺服器(例如 Gigabyte Gxxx)是專門為具有 GPU 的 HPC 而設計的,這與標準(例如)HPE Proliant、IBM.. 伺服器相比真的有什麼區別嗎?
  • 大多數伺服器是否支援消費級 GPU 卡所需的 PCI-express v4 x16?
  • 伺服器機殼內的氣流是否與消費級 GPU 卡相容(通常底部有 3 個通風口)
  • 電源連接有問題嗎?

答案1

我們在伺服器中使用大量 GPU - 但有一個規則需要遵循:

僅使用製造商明確支援您的特定伺服器型號的零件。

不要違反這條規則。

相關內容