Как включить отключенные потоковые процессоры (SM)?

Как включить отключенные потоковые процессоры (SM)?

Я использую NVIDIA Quadro K2000 GPU. Я запустил deviceQuery.exe, результаты которого приведены ниже. Он говорит, что у меня только 2 SM-блока. Я не уверен, действительно ли у меня только 2 SM или некоторые из моих SM отключены, как упоминалось втретий комментарий к этому вопросу SO.

Я также видел, что количество SP на SM составляет 192. Может быть, есть какой-то способ включить больше SM, и тогда количество SP на SM уменьшится.

изображение

Обновлять:Причина, по которой я спрашиваю, заключается в том, что я хочу сделать обработку моего GPU эффективной. У меня есть изображение 1080 x 1920, которое я разделил на три сегмента. Я передаю эти сегменты H2D, обрабатываю и передаю D2H асинхронно. Поэтому я хочу выбрать такую ​​размерность блоков и количество потоков на блок, которые могут эффективно использовать аппаратную конфигурацию моего GPU. Кроме того, я все еще не понимаю, как GPU, имеющий более 2 SM (скажем, 8 SM), но меньшее количество SP на SM (384/8 = 48 SP на SM), будет работать так же, как GPU, имеющий 2 SM и 192 SP на SM?Я имею в виду, имеет ли значение общее количество доступных SP?

решение1

Чтобы:

  1. Я не уверен, действительно ли у меня только 2 SM или некоторые из моих SM отключены.

    Ваш GPU — GK107. Он имеет два SMX, каждый с 192 SP. Отключенных процессоров нет.

  2. Может быть, есть способ включить больше SM, и тогда количество SP на SM уменьшится.

    Не существует волшебного способа изменить микросхему в программном обеспечении.

  3. Я все еще не понимаю, как графический процессор, имеющий более 2 SM (скажем, 8 SM), но меньшее количество SP на SM (384/8 = 48 SP на SM), будет работать так же быстро, как графический процессор, имеющий 2 SM и 192 SP на SM?

    Это огромный вопрос, и я не собираюсь пытаться ответить на него здесь. NVIDIA выпустила множество очень подробных технических документов по архитектуре и производительности различных поколений своих флагманских вычислительных карт по мере их выпуска. Если вы так склонны, я предлагаю прочитать их самостоятельно. Сказав это, правило заключается в том, чтов пределах одного поколения архитектурычем больше SM или SMX у устройства, тем лучше оно будет выполнять арифметические операции. Сравнивать разные поколения графических процессоров бесполезно. Например, самая первая выпущенная NVIDIA вычислительная карта Telsa имеет 16 SM (C860). Самая последняя имеет 15 SMX (K40). Их пиковая производительность одинарной точности отличается примерно в 10 раз. Обратите внимание также, что многие реальные приложения ограничены пропускной способностью памяти, и это может радикально изменить разницу в производительности между различными картами. В то время как количество ядер и пиковый FLOP более или менее следуют закону Мура, пропускная способность памяти — нет.

Связанный контент