Dell PowerEdge R7525 + Nvidia A16

Dell PowerEdge R7525 + Nvidia A16

У нас есть сервер PowerEdge R7525 с видеокартой nvidia A16 на Debian 11. Но у нас производительность графического процессора примерно на 50% ниже, чем у других серверов. Я подозреваю, что это из-за отсутствующей опции "Above 4G decoding" в BIOS. Согласно nvidia, этот сервер должен обрабатывать до 3 графических процессоров A16. Может ли кто-нибудь посоветовать мне какой-нибудь обходной путь или что-то еще, чтобы использовать всю мощь этого графического процессора?

заранее большое спасибо

решение1

(Я работаю в Dell) - в частности, я много занимаюсь оптимизацией.

Мне кажется, вы немного отклонились от курса; «Декодирование выше 4G» — это функция, оставшаяся с тех времен, когда перечисление памяти BIOS PCIe было ограничено 32 битами, что уже давно не так. Адресация теперь нативная 64-битная.

Но производительность графического процессора у нас примерно на 50% ниже, чем у других серверов.

Я не уверен, что вы имеете в виду. Возможно, я слишком много в этом читаю, но это утверждение заставляет меня думать, что это может быть ваш первый опыт оптимизации, и в этом случае, здорово! Это сложный, но увлекательный мир. Производительность графического процессора можно измерить множеством разных способов, поэтому это утверждение само по себе не сужает проблему.

Что касается того, почему вы видите низкую производительность, это чрезвычайно сложный вопрос, по которому люди пишут целые книги. Некоторые распространенные ошибки, которые я вижу, особенно на серверах на базе AMD:

  • Невозможность учесть выравнивание PCIe lane / proc. Убедитесь, что все процессы, которые вы запускаете на GPU, назначены proc, которая имеет PCIe lanes GPU, а не удаленному proc
  • Невозможность правильно настроить NUMA на ядро ​​для рабочей нагрузки (это уникально для систем AMD, таких как R7525)
  • Неспособность учесть узкие места в других местах. Например: у меня были люди, которые видели плохую производительность GPU, но на самом деле часть их программного обеспечения была ограничена хранилищем ввода-вывода.
  • Может быть, это очевидно, но попробуйте установить профиль BIOS на производительность. Если вы установите его на энергосбережение, это может привести к понижению частоты, когда вы этого не хотите
  • Плохо согласованные передачи памяти

Оптимизация крайне специфична для рабочей нагрузки. Если вы сталкиваетесь с этим впервые, я бы сосредоточил свое время на том, чтобы действительно понять, как именно передаются данные и где они могут быть узкими местами. Попробуйте определить вещи, которые кажутся неуместными. Например: если вы считаете, что производительность графического процессора низкая, какова загрузка графического процессора? Она составляет 100%? Если она близка к 100%, я начинаю склоняться к проблемам с программным обеспечением. Если она не составляет 100%, почему? Вы недостаточно быстро передаете данные? Недостаточно ли мощности у карты? Перегревается ли сервер? И т. д.

Связанный контент