Dell PowerEdge R7525 + Nvidia A16

Dell PowerEdge R7525 + Nvidia A16

Temos um servidor PowerEdge R7525 com placa gráfica nvidia A16 no debian 11. Mas temos desempenho de GPU cerca de 50% menor do que outros servidores. Suspeito que seja a opção "Decodificação acima de 4G" ausente no BIOS. De acordo com a nvidia este servidor deve suportar até 3 unidades GPU A16. Alguém pode me aconselhar sobre alguma solução alternativa ou algo para aproveitar todo o poder desta GPU?

Muito obrigado antecipadamente

Responder1

(Trabalho para a Dell) - especificamente, faço muitas otimizações.

Acho que você está um pouco fora do curso; "Decodificação acima de 4G" é um recurso que sobrou de quando a enumeração de memória BIOS PCIe era limitada a 32 bits, o que não é mais o caso e não acontece há algum tempo. O endereçamento agora é nativo de 64 bits.

Mas temos desempenho de GPU cerca de 50% menor do que outros servidores.

Não tenho certeza do que você quer dizer com isso. Posso estar lendo muito sobre isso, mas essa afirmação me faz pensar que esta pode ser sua primeira incursão na otimização. Nesse caso, incrível! É um mundo complicado, mas fascinante. O desempenho da GPU pode ser medido de inúmeras maneiras diferentes, portanto esta afirmação por si só não restringe qual é o problema.

Com relação ao motivo pelo qual você está vendo um desempenho ruim, esta é uma questão extremamente complexa sobre a qual as pessoas escrevem livros inteiros. Alguns erros comuns que vejo as pessoas cometendo, especialmente em servidores baseados em AMD:

  • Falha ao considerar o alinhamento de pista / proc PCIe. Certifique-se de que todos os processos que você está executando na GPU sejam atribuídos ao proc que possui as pistas PCIe da GPU, em vez do proc distante
  • Falha ao definir NUMAs por núcleo de forma adequada para a carga de trabalho (isso é exclusivo de sistemas AMD como o R7525)
  • Deixar de levar em conta gargalos em outros lugares. Por exemplo: algumas pessoas observaram um desempenho ruim da GPU, mas na realidade parte do software estava vinculado ao armazenamento IO.
  • Talvez isso seja óbvio, mas tente configurar o perfil do BIOS para desempenho. Se você configurá-lo para economia de energia, isso pode levar a downclocks potencialmente quando você não os deseja
  • Transferências de memória mal alinhadas

A otimização é extremamente específica para a carga de trabalho. Se esta é a primeira vez que você passa por isso, eu concentraria meu tempo em realmente entender exatamente como os dados fluem e onde podem haver gargalos. Tente identificar coisas que parecem fora do lugar. Ex: se você acha que o desempenho da GPU está baixo, qual é a utilização das GPUs? Está em 100%? Se estiver perto de 100%, começo a me inclinar para problemas de software. Se não está em 100%, por que não está? Você não está alimentando dados com rapidez suficiente? O cartão está com pouca potência? Superaquecimento do servidor? Etc.

informação relacionada