Dell PowerEdge R7525 + Nvidia A16

Dell PowerEdge R7525 + Nvidia A16

Tenemos un servidor PowerEdge R7525 con tarjeta gráfica nvidia A16 en Debian 11. Pero tenemos aproximadamente un 50% menos de rendimiento de GPU que otros servidores. Sospecho que falta la opción "Decodificación superior a 4G" en el BIOS. Según nvidia, este servidor debería manejar hasta 3 unidades de gpu A16. ¿Alguien puede aconsejarme alguna solución o algo para aprovechar toda la potencia de esta gpu?

Muchas gracias por adelantado

Respuesta1

(Trabajo para Dell); específicamente, hago mucha optimización.

Creo que te estás desviando un poco del rumbo; La "decodificación por encima de 4G" es una característica que quedó de cuando la enumeración de la memoria PCIe del BIOS se limitaba a 32 bits, lo cual ya no es el caso y no lo ha sido desde hace bastante tiempo. El direccionamiento ahora es nativo de 64 bits.

Pero tenemos aproximadamente un 50% menos de rendimiento de GPU que otros servidores.

No estoy seguro de qué quieres decir con esto. Puede que esté leyendo demasiado sobre esto, pero esta afirmación me hace pensar que esta puede ser su primera incursión en la optimización, en cuyo caso, ¡genial! Es un mundo complicado pero fascinante. El rendimiento de la GPU se puede medir de innumerables maneras diferentes, por lo que esta afirmación por sí sola no limita cuál es el problema.

Con respecto a por qué se observa un desempeño deficiente, se trata de una cuestión enormemente compleja sobre la que la gente escribe libros enteros. Algunos errores comunes que veo que la gente comete particularmente en servidores basados ​​en AMD:

  • No tener en cuenta la alineación del proceso/carril PCIe. Asegúrese de que cualquier proceso que esté ejecutando en la GPU esté asignado al proceso que tiene los carriles PCIe de la GPU en lugar del proceso distante.
  • No configurar los NUMA por núcleo de manera adecuada para la carga de trabajo (esto es exclusivo de los sistemas AMD como el R7525)
  • No tener en cuenta los cuellos de botella en otros lugares. Por ejemplo: algunas personas han visto un rendimiento deficiente de la GPU, pero en realidad parte de su software estaba vinculado al almacenamiento IO.
  • Quizás esto sea obvio, pero intente configurar el perfil del BIOS en rendimiento. Si lo configura en modo de ahorro de energía, eso puede generar potencialmente caídas de reloj cuando no las desea.
  • Transferencias de memoria mal alineadas

La optimización es extremadamente específica de la carga de trabajo. Si es la primera vez que lo analiza, centraría mi tiempo en comprender realmente exactamente cómo fluyen los datos y dónde podrían existir cuellos de botella. Trate de identificar cosas que parezcan fuera de lugar. Ej: si cree que el rendimiento de la GPU es bajo, ¿cuál es la utilización de la GPU? ¿Está al 100%? Si está cerca del 100%, empiezo a inclinarme por problemas de software. Si no está al 100%, ¿por qué no lo está? ¿No le estás suministrando datos lo suficientemente rápido? ¿La tarjeta tiene poca potencia? ¿Sobrecalentamiento del servidor? Etc.

información relacionada