How do CUDA blocks/warps/threads map onto CUDA cores? Ask Question

Question

最も優れた参考文献の2つは

あなたの質問に一つ一つお答えしたいと思います。

プログラマは作業をスレッドに分割し、スレッドをスレッドブロックに分割し、スレッドブロックをグリッドに分割します。計算作業ディストリビュータは、スレッドブロックをストリーミングマルチプロセッサ (SM) に割り当てます。スレッドブロックが SM に配布されると、スレッドブロックのリソース (ワープと共有メモリ) が割り当てられ、スレッドはワープと呼ばれる 32 個のスレッドのグループに分割されます。割り当てられたワープはアクティブワープと呼ばれます。2 つのワープスケジューラは、サイクルごとに 2 つのアクティブワープを選択し、ワープを実行ユニットにディスパッチします。実行ユニットと命令ディスパッチの詳細については、次を参照してください。1p.7-10および2。

4'laneid (ワープ内のスレッドインデックス) とコアの間にはマッピングがあります。

5'ワープに含まれるスレッドが 32 未満の場合、ほとんどの場合、32 スレッドの場合と同じように実行されます。ワープのアクティブスレッドが 32 未満になる理由はいくつかあります。ブロックあたりのスレッド数が 32 で割り切れない、プログラムが分岐ブロックを実行するため、現在のパスをとらなかったスレッドが非アクティブとしてマークされる、またはワープ内のスレッドが終了したなどです。

6'スレッドブロックは、WarpsPerBlock = (ThreadsPerBlock + WarpSize - 1) / WarpSize に分割されます。ワープスケジューラが同じスレッドブロックから 2 つのワープを選択する必要はありません。

7'実行ユニットはメモリ操作で停止しません。命令をディスパッチする準備ができたときにリソースが利用できない場合は、将来リソースが利用可能になったときに命令が再度ディスパッチされます。ワープは、バリア、メモリ操作、テクスチャ操作、データ依存関係などで停止することがあります。停止したワープは、ワープスケジューラによって選択されません。Fermi では、ワープスケジューラが命令を発行できるように、1 サイクルあたり少なくとも 2 つの適切なワープがあると便利です。

参照2GTX480 と GTX560 の違いについて。

参考資料を読めば（数分）、あなたの目標が意味をなさないことがわかると思います。あなたの指摘に答えてみます。

1'カーネル<<<8, 48>>>を起動すると、32 スレッドと 16 スレッドの 2 つのワープを持つ 8 つのブロックが取得されます。これらの 8 つのブロックが異なる SM に割り当てられる保証はありません。2 つのブロックが SM に割り当てられている場合、各ワープスケジューラがワープを選択してワープを実行できる可能性があります。48 コアのうち 32 コアのみが使用されます。

2'48 スレッドの 8 ブロックと 6 スレッドの 64 ブロックの間には大きな違いがあります。カーネルに相違がなく、各スレッドが 10 命令を実行すると仮定します。

48 スレッドの 8 ブロック = 16 ワープ * 10 命令 = 160 命令
6 つのスレッドを持つ 64 ブロック = 64 ワープ * 10 命令 = 640 命令

最適な効率を得るには、作業を 32 スレッドの倍数に分割する必要があります。ハードウェアは、異なるワープからのスレッドを結合しません。

3'カーネルがレジスタや共有メモリを最大限まで使用していない場合、GTX560 は一度に 8 SM * 8 ブロック = 64 ブロック、または 8 SM * 48 ワープ = 512 ワープを持つことができます。特定の時点で、作業の一部は SM でアクティブになります。各 SM には複数の実行ユニット (CUDA コア以上) があります。特定の時点でどのリソースが使用されているかは、ワープスケジューラとアプリケーションの命令の組み合わせによって異なります。TEX 操作を行わない場合、TEX ユニットはアイドル状態になります。特別な浮動小数点演算を行わない場合、SUFU ユニットはアイドル状態になります。

4'. Parallel NsightとVisual Profilerは

a. 実行されたIPC

b. 発行されたIPC

c. アクティブサイクルあたりのアクティブワープ

d. アクティブサイクルあたりの適格ワープ数（Nsight のみ）

e. ワープ失速の理由（Nsight のみ）

f. 実行された命令あたりのアクティブスレッド数

プロファイラーは、いずれの実行ユニットの使用率も表示しません。GTX560 の場合、大まかな推定値は IssuedIPC / MaxIPC になります。MaxIPC の場合、GF100 (GTX480) は 2、GF10x (GTX560) は 4 と想定しますが、ターゲットは 3 のほうがより良いターゲットです。

Answer 1