Wie aktiviere ich die deaktivierten Streaming-Prozessoren (SM)?

Wie aktiviere ich die deaktivierten Streaming-Prozessoren (SM)?

Ich verwende NVIDIA Quadro K2000 GPU. Ich habe ausgeführt deviceQuery.exe, die Ergebnisse sind unten aufgeführt. Es heißt, dass ich nur 2 SM-Einheiten habe. Ich bin nicht sicher, ob ich wirklich nur 2 SMs habe oder ob einige meiner SMs deaktiviert sind, wie oben erwähnt.dritter Kommentar zu dieser SO-Frage.

Ich habe auch gesehen, dass die Anzahl der SP 192 pro SM beträgt. Vielleicht gibt es eine Möglichkeit, mehr SM zu aktivieren, und dann wird die Anzahl der SP pro SM verringert.

Bild

Aktualisieren:Der Grund für meine Frage ist, dass ich die Verarbeitung meiner GPU effizienter gestalten möchte. Ich habe ein Bild von 1080 x 1920, das ich in drei Segmente unterteilt habe. Ich übertrage diese Segmente H2D und verarbeite und übertrage D2H asynchron. Daher möchte ich eine solche Blockgröße und Anzahl von Threads pro Block wählen, die die Hardwarekonfiguration meiner GPU effizient nutzen können. Außerdem bin ich immer noch verwirrt, ob eine GPU mit mehr als 2 SMs (sagen wir 8 SMs), aber weniger SPs pro SM (384/8 = 48 SP pro SM) dieselbe Leistung erbringen würde wie eine GPU mit 2 SMs und 192 SPs pro SM?Ich meine, ist es die Gesamtzahl der verfügbaren SPs, die zählt?

Antwort1

In Ordnung:

  1. Ich bin nicht sicher, ob ich wirklich nur 2 SMs habe oder ob einige meiner SMs deaktiviert sind

    Ihre GPU ist GK107. Sie hat zwei SMX mit jeweils 192 SP. Es gibt keine deaktivierten Prozessoren.

  2. Vielleicht gibt es eine Möglichkeit, mehr SM zu aktivieren, wodurch die Anzahl der SP pro SM verringert würde.

    Es gibt keine magische Möglichkeit, das Silizium in der Software zu ändern.

  3. Es verwirrt mich immer noch, warum eine GPU mit mehr als 2 SMs (sagen wir 8 SMs), aber weniger SPs pro SM (384/8 = 48 SP pro SM) dieselbe Leistung erbringen soll wie eine GPU mit 2 SMs und 192 SPs pro SM?

    Das ist eine große Frage, die ich hier nicht beantworten werde. NVIDIA hat viele sehr detaillierte Whitepapers zur Architektur und Leistung der verschiedenen Generationen ihrer Flaggschiff-Computerkarten veröffentlicht, sobald diese auf den Markt gekommen sind. Wenn Sie Lust haben, empfehle ich Ihnen, diese selbst zu lesen. Allerdings gilt die Faustregel:innerhalb der gleichen ArchitekturgenerationJe mehr SM oder SMX ein Gerät hat, desto besser ist seine Leistung bei arithmetisch gebundenen Operationen. Ein Vergleich verschiedener GPU-Generationen ist sinnlos. Beispielsweise hat die allererste von NVIDIA veröffentlichte Tesla-Rechnerkarte 16 SM (die C860). Die neueste hat 15 SMX (die K40). Ihre Spitzenleistung bei einfacher Genauigkeit ist etwa zehnmal unterschiedlich. Beachten Sie auch, dass viele reale Anwendungen an die Speicherbandbreite gebunden sind, was den Leistungsunterschied zwischen verschiedenen Karten radikal verändern kann. Während die Anzahl der Kerne und der maximale FLOP mehr oder weniger dem Mooreschen Gesetz folgten, war dies bei der Speicherbandbreite nicht der Fall.

verwandte Informationen