Как включить отключенные потоковые процессоры (SM)?

Question

Чтобы:

Я не уверен, действительно ли у меня только 2 SM или некоторые из моих SM отключены.

Ваш GPU — GK107. Он имеет два SMX, каждый с 192 SP. Отключенных процессоров нет.
Может быть, есть способ включить больше SM, и тогда количество SP на SM уменьшится.

Не существует волшебного способа изменить микросхему в программном обеспечении.
Я все еще не понимаю, как графический процессор, имеющий более 2 SM (скажем, 8 SM), но меньшее количество SP на SM (384/8 = 48 SP на SM), будет работать так же быстро, как графический процессор, имеющий 2 SM и 192 SP на SM?

Это огромный вопрос, и я не собираюсь пытаться ответить на него здесь. NVIDIA выпустила множество очень подробных технических документов по архитектуре и производительности различных поколений своих флагманских вычислительных карт по мере их выпуска. Если вы так склонны, я предлагаю прочитать их самостоятельно. Сказав это, правило заключается в том, чтов пределах одного поколения архитектурычем больше SM или SMX у устройства, тем лучше оно будет выполнять арифметические операции. Сравнивать разные поколения графических процессоров бесполезно. Например, самая первая выпущенная NVIDIA вычислительная карта Telsa имеет 16 SM (C860). Самая последняя имеет 15 SMX (K40). Их пиковая производительность одинарной точности отличается примерно в 10 раз. Обратите внимание также, что многие реальные приложения ограничены пропускной способностью памяти, и это может радикально изменить разницу в производительности между различными картами. В то время как количество ядер и пиковый FLOP более или менее следуют закону Мура, пропускная способность памяти — нет.

Answer 1

Чтобы:

Я не уверен, действительно ли у меня только 2 SM или некоторые из моих SM отключены.

Ваш GPU — GK107. Он имеет два SMX, каждый с 192 SP. Отключенных процессоров нет.
Может быть, есть способ включить больше SM, и тогда количество SP на SM уменьшится.

Не существует волшебного способа изменить микросхему в программном обеспечении.
Я все еще не понимаю, как графический процессор, имеющий более 2 SM (скажем, 8 SM), но меньшее количество SP на SM (384/8 = 48 SP на SM), будет работать так же быстро, как графический процессор, имеющий 2 SM и 192 SP на SM?

Это огромный вопрос, и я не собираюсь пытаться ответить на него здесь. NVIDIA выпустила множество очень подробных технических документов по архитектуре и производительности различных поколений своих флагманских вычислительных карт по мере их выпуска. Если вы так склонны, я предлагаю прочитать их самостоятельно. Сказав это, правило заключается в том, чтов пределах одного поколения архитектурычем больше SM или SMX у устройства, тем лучше оно будет выполнять арифметические операции. Сравнивать разные поколения графических процессоров бесполезно. Например, самая первая выпущенная NVIDIA вычислительная карта Telsa имеет 16 SM (C860). Самая последняя имеет 15 SMX (K40). Их пиковая производительность одинарной точности отличается примерно в 10 раз. Обратите внимание также, что многие реальные приложения ограничены пропускной способностью памяти, и это может радикально изменить разницу в производительности между различными картами. В то время как количество ядер и пиковый FLOP более или менее следуют закону Мура, пропускная способность памяти — нет.

Как включить отключенные потоковые процессоры (SM)?

решение1

Связанный контент