戴爾 PowerEdge R7525 + Nvidia A16

戴爾 PowerEdge R7525 + Nvidia A16

我們有一台 PowerEdge R7525 伺服器,在 debian 11 上配備 nvidia A16 顯示卡。我懷疑是 BIOS 中缺少“4G 以上解碼”選項。根據 nvidia 的說法,該伺服器應處理最多 3 個 A16 GPU 單元。有人可以建議我一些解決方法或利用該 GPU 的全部功能的方法嗎?

預先非常感謝

答案1

(我在戴爾工作) - 具體來說,我做了很多優化。

我認為你有點偏離路線了; 「4G 以上解碼」是 BIOS PCIe 記憶體枚舉限制為 32 位元時遺留下來的功能,但現在已經不再是這樣了,而且已經有一段時間沒有這樣了。現在尋址是本機 64 位元。

但我們的 GPU 效能比其他伺服器低約 50%。

我不確定你的意思是什麼。我可能讀得太多了,但這個陳述讓我覺得這可能是你第一次嘗試優化,在這種情況下,太棒了!這是一個複雜但迷人的世界。 GPU 效能可以透過多種不同的方式來衡量,因此該聲明本身並不能縮小問題的範圍。

至於為什麼你會看到性能不佳,這是一個非常複雜的問題,人們寫了整本書。我看到人們特別是在基於 AMD 的伺服器上犯的一些常見錯誤:

  • 未能考慮 PCIe 通道/進程對齊。確保針對 GPU 運行的任何進程都分配給具有 GPU PCIe 通道的進程,而不是遠端進程
  • 未能針對工作負載正確設定每個核心的 NUMA(這是 R7525 等 AMD 系統所獨有的)
  • 未能解決其他地方的瓶頸。例如:我曾有人看到 GPU 效能不佳,但實際上他們的軟體部分受到儲存 IO 限制。
  • 也許這是顯而易見的,但請嘗試將 BIOS 設定檔設定為效能。如果您將其設定為省電模式,可能會在您不需要時導致降頻
  • 記憶體傳輸對齊不良

最佳化是非常特定於工作負載的。如果這是您第一次經歷它,我會專注於真正理解資料如何流動以及它可能在哪裡出現瓶頸。試著找出那些看起來不合適的事情。例如:如果您認為 GPU 效能較低,那麼 GPU 利用率是多少?是100%嗎?如果接近 100%,我開始傾向於軟體問題。如果不是 100%,為什麼不是呢?您向其提供資料的速度不夠快嗎?是不是卡片的功率不夠?伺服器過熱? ETC。

相關內容