Como habilitar os Processadores de Streaming (SM) desabilitados?

Como habilitar os Processadores de Streaming (SM) desabilitados?

Estou usando a GPU NVIDIA Quadro K2000. Corri deviceQuery.exe, cujos resultados estão abaixo. Diz que tenho apenas 2 unidades SM. Não tenho certeza se realmente tenho apenas 2 SMs ou se alguns dos meus SMs estão desabilitados conforme mencionado noterceiro comentário nesta pergunta SO.

Vi também que o número de SP é 192 por SM. Pode haver alguma maneira de habilitar mais SM e então o número de SP por SM diminuirá.

imagem

Atualizar:A razão pela qual estou perguntando é o fato de que quero tornar o processamento da minha GPU eficiente. Tenho uma imagem de 1080 x 1920 que dividi em três segmentos. Estou transferindo esses segmentos H2D, processando e transferindo D2H de forma assíncrona. Portanto, quero escolher uma dimensão de blocos e um número de threads por bloco que possa utilizar com eficiência a configuração de hardware da minha GPU. Além disso, ainda estou confuso que uma GPU com mais de 2 SMs (digamos 8 SMs), mas menos número de SPs por SM (384/8 = 48 SP por SM), teria o mesmo desempenho de uma GPU com 2 SMs e 192 SPs por SM. SM?Quero dizer, é o número total de SPs disponíveis que importa?

Responder1

Em ordem:

  1. Não tenho certeza se realmente tenho apenas 2 SMs ou se alguns dos meus SMs estão desativados

    Sua GPU é GK107. Possui dois SMX, cada um com 192 SP. Não há processadores desativados.

  2. Pode ser [sic] que haja alguma maneira de habilitar mais SM e então o número de SP por SM diminuirá.

    Não existe uma maneira mágica de mudar o silício no software.

  3. Ainda estou confuso que uma GPU com mais de 2 SMs (digamos 8 SMs), mas menos número de SPs por SM (384/8 = 48 SP por SM) teria o mesmo desempenho de uma GPU com 2 SMs e 192 SPs por SM?

    Essa é uma grande questão e não vou tentar responder aqui. A NVIDIA lançou muitos white papers detalhados sobre a arquitetura e o desempenho das várias gerações de suas principais placas de computação à medida que cada uma delas era lançada. Se você quiser, sugiro lê-los você mesmo. Dito isto, a regra é quedentro da mesma geração de arquiteturaquanto mais SM ou SMX um dispositivo tiver, melhor será seu desempenho em operações aritméticas. Comparar diferentes gerações de GPUs é inútil. Por exemplo, a primeira placa de computação Telsa lançada pela NVIDIA tem 16 SM (a C860). O mais recente possui 15 SMX (o K40). Há cerca de 10 vezes de diferença em seu desempenho de precisão única de pico. Observe também que muitos aplicativos do mundo real estão limitados à largura de banda da memória e isso pode alterar radicalmente a diferença de desempenho entre diferentes placas. Embora a contagem de núcleos e o pico de FLOP tenham seguido mais ou menos a Lei de Moore, a largura de banda da memória não.

informação relacionada