델 파워엣지 R7525 + 엔비디아 A16

델 파워엣지 R7525 + 엔비디아 A16

Debian 11에 nvidia A16 그래픽 카드가 장착된 PowerEdge R7525 서버가 있습니다. 하지만 다른 서버보다 GPU 성능이 약 50% 낮습니다. BIOS에 "4G 이상 디코딩" 옵션이 누락된 것 같습니다. NVIDIA에 따르면 이 서버는 최대 3개의 A16 GPU 장치를 처리해야 합니다. 누구든지 이 GPU의 모든 기능을 활용할 수 있는 해결 방법이나 방법을 조언해 줄 수 있습니까?

미리 감사드립니다.

답변1

(저는 Dell에서 일합니다.) - 특히 최적화 작업을 많이 합니다.

나는 당신이 약간 벗어난 길을 추적하고 있다고 생각합니다. "4G 이상 디코딩"은 BIOS PCIe 메모리 열거가 32비트로 제한되었을 때 남은 기능으로, 더 이상 그렇지 않으며 꽤 오랫동안 존재하지 않았습니다. 이제 주소 지정은 기본 64비트입니다.

하지만 우리는 다른 서버에 비해 GPU 성능이 50% 정도 낮습니다.

이것이 무슨 뜻인지 잘 모르겠습니다. 제가 이 내용을 너무 많이 읽고 있을지 모르지만, 이 진술을 보면 이것이 최적화에 대한 첫 번째 시도일 수 있다고 생각하게 됩니다. 그렇다면 정말 대단합니다! 복잡하면서도 매혹적인 세상입니다. GPU 성능은 다양한 방법으로 측정할 수 있으므로 이 설명만으로는 문제의 범위를 좁힐 수 없습니다.

성과가 좋지 않은 이유에 관해서는 사람들이 책 전체를 쓰는 데 있어 엄청나게 복잡한 질문입니다. 특히 AMD 기반 서버에서 사람들이 저지르는 몇 가지 일반적인 실수는 다음과 같습니다.

  • PCIe 레인/프로세스 정렬을 고려하지 못했습니다. GPU에 대해 실행 중인 모든 프로세스가 먼 프로세스가 아닌 GPU의 PCIe 레인이 있는 프로세스에 할당되었는지 확인하세요.
  • 워크로드에 맞게 코어당 NUMA를 적절하게 설정하지 못함(이는 R7525와 같은 AMD 시스템에만 해당)
  • 다른 곳의 병목 현상을 설명하지 못했습니다. 예를 들어, GPU 성능이 좋지 않은 사람들이 있었지만 실제로는 소프트웨어의 일부가 스토리지 IO에 묶여 있었습니다.
  • 어쩌면 이것이 당연한 것일 수도 있지만 BIOS 프로필을 성능으로 설정해 보십시오. 원하지 않을 때 잠재적으로 다운클럭이 발생할 수 있는 절전 모드로 설정한 경우
  • 잘못 정렬된 메모리 전송

최적화는 워크로드에 따라 매우 다릅니다. 이번이 처음이라면 데이터 흐름 방식과 병목 현상이 발생할 수 있는 위치를 정확히 이해하는 데 시간을 집중할 것입니다. 이상해 보이는 것들을 찾아보십시오. 예: GPU 성능이 낮다고 생각한다면 GPU 활용도는 얼마나 됩니까? 100%인가요? 100%에 가까우면 소프트웨어 문제 쪽으로 기울기 시작합니다. 100%가 아니라면 왜 그렇습니까? 데이터를 충분히 빠르게 공급하고 있지 않습니까? 카드의 전력이 부족합니까? 서버 과열? 등.

관련 정보