在伺服器中使用消費級（高階）GPU 的注意事項？

2024-6-27 • tag-icon

動機：

首先，即使我有一些電腦科學、軟體開發和伺服器 Linux 管理方面的知識，我也從未研究過伺服器硬件，而且我對它完全是「新手」。很抱歉，如果這個問題對你們大多數人來說都是微不足道的。

我正在開發一個具有相當密集（單點）運算需求的軟體，為了達到所需的 TFlops，我選擇了 OpenCL (2.1) 框架並在高階消費級 AMD 顯示卡上執行大部分運算，主要使用 CPU驅動GPU（ Linux 作業系統）。我現在希望透過多台機器來擴展它。

看看如何組織這些機器，很快就發現標準（消費級）ATX 塔式機並不理想：每個品牌都有自己的機箱形狀，它們基本上無法輕鬆方便地堆疊在19 英寸機箱中，並且具有良好的冷卻氣流、共享APC、電纜管理等。

帶著這個目標，我開始尋找有伺服器的機架櫃，並發現：

像Instinct/Tesla 這樣專為HPC 設計的GPU 的成本比消費類GPU 高出一個數量級，主要是為了帶來雙浮點，這在消費類設備上速度「慢」（而且因為它們可以以這個價格出售給企業）。
即使使用這些 GPU，也需要 PCI-Express 墊片
GPU 就緒伺服器僅允許最多 2 插槽顯示卡（目前高階消費型 GPU 通常為 3 插槽）。
我發現 ATX 3U 或 4U 機箱專為 19" 機櫃設計。但是，嘿！安裝其中一個帶有消費性硬體的機箱將排除 ECC、多個 APC 等。

購買用於託管 1 或 2 個消費級 GPU 的伺服器時需要考慮什麼？

我已經花了很多時間在網路上查找，但無法對這個問題有基本的了解，例如，以下是我想到的一些想法：

這是個好主意嗎？一些文字（網頁）抱怨這些系統很難協同工作、不相容、驅動程式問題等。
2U-3U伺服器機箱都可以安裝3槽顯示卡嗎？或兩個？
一些伺服器（例如 Gigabyte Gxxx）是專門為具有 GPU 的 HPC 而設計的，這與標準（例如）HPE Proliant、IBM.. 伺服器相比真的有什麼區別嗎？
大多數伺服器是否支援消費級 GPU 卡所需的 PCI-express v4 x16？
伺服器機殼內的氣流是否與消費級 GPU 卡相容（通常底部有 3 個通風口）
電源連接有問題嗎？

我們在伺服器中使用大量 GPU - 但有一個規則需要遵循：

僅使用製造商明確支援您的特定伺服器型號的零件。

不要違反這條規則。