C++ vs Java? ICC が VC よりも遅いコードを生成するのはなぜですか? [closed] 質問する

Question

要約: ここで見ているのはICCのループのベクトル化の失敗。

まずは MSVC x64 から始めましょう:

重要なループは次のとおりです。

$LL3@main:
movsxd  rax, DWORD PTR [rdx-4]
movsxd  rcx, DWORD PTR [rdx-8]
add rdx, 16
add r10, rax
movsxd  rax, DWORD PTR [rdx-16]
add rbx, rcx
add r9, rax
movsxd  rax, DWORD PTR [rdx-12]
add r8, rax
dec r11
jne SHORT $LL3@main

ここで見られるのは、コンパイラによる標準的なループ展開です。MSVC は 4 回の反復に展開し、変数を、、、varの 4 つのレジスタに分割します。その後、ループの最後で、これらの 4 つのレジスタが再び合計されます。r10rbxr9r8

ここで 4 つの合計が再結合されます。

lea rax, QWORD PTR [r8+r9]
add rax, r10
add rbx, rax
dec rdi
jne SHORT $LL6@main

MSVC は現在、自動ベクトル化を行わないことに注意してください。

それでは、ICC 出力の一部を見てみましょう。

000000013F0510A2  movq        xmm2,mmword ptr arr[rcx]  
000000013F0510A8  add         r8,8  
000000013F0510AC  punpckldq   xmm2,xmm2  
000000013F0510B0  add         rcx,20h  
000000013F0510B4  movdqa      xmm3,xmm2  
000000013F0510B8  pand        xmm2,xmm0  
000000013F0510BC  movq        xmm4,mmword ptr [rdx+8]  
000000013F0510C1  psrad       xmm3,1Fh  
000000013F0510C6  punpckldq   xmm4,xmm4  
000000013F0510CA  pand        xmm3,xmm1  
000000013F0510CE  por         xmm3,xmm2  
000000013F0510D2  movdqa      xmm5,xmm4  
000000013F0510D6  movq        xmm2,mmword ptr [rdx+10h]  
000000013F0510DB  psrad       xmm5,1Fh  
000000013F0510E0  punpckldq   xmm2,xmm2  
000000013F0510E4  pand        xmm5,xmm1  
000000013F0510E8  paddq       xmm6,xmm3  

...

ここで表示されているのは、ICC がこのループをベクトル化しようとする試みです。これは、MSVC が行った方法 (複数の合計に分割) と同様の方法で行われますが、代わりに SSE レジスタを使用し、レジスタごとに 2 つの合計を使用します。

しかし、ベクトル化のオーバーヘッドがベクトル化の利点を上回っていることが判明しました。

これらの命令を 1 つずつ見ていくと、ICC がどのようにベクトル化しようとしているかがわかります。

//  Load two ints using a 64-bit load.  {x, y, 0, 0}
movq        xmm2,mmword ptr arr[rcx]  

//  Shuffle the data into this form.
punpckldq   xmm2,xmm2           xmm2 = {x, x, y, y}
movdqa      xmm3,xmm2           xmm3 = {x, x, y, y}

//  Mask out index 1 and 3.
pand        xmm2,xmm0           xmm2 = {x, 0, y, 0}

//  Arithmetic right-shift to copy sign-bit across the word.
psrad       xmm3,1Fh            xmm3 = {sign(x), sign(x), sign(y), sign(y)}

//  Mask out index 0 and 2.
pand        xmm3,xmm1           xmm3 = {0, sign(x), 0, sign(y)}

//  Combine to get sign-extended values.
por         xmm3,xmm2           xmm3 = {x, sign(x), y, sign(y)}
                                xmm3 = {x, y}

//  Add to accumulator...
paddq       xmm6,xmm3

つまり、ベクトル化するためだけに、非常に面倒なアンパック処理が行われます。この面倒さは、SSE 命令のみを使用して 32 ビット整数を 64 ビットに符号拡張する必要があることから生じます。

SSE4.1 は実際にPMOVSXDQこの目的のための命令を提供します。ただし、ターゲットマシンが SSE4.1 をサポートしていないか、ICC がこの場合にはそれを使用できるほどスマートではありません。

しかし、ポイントは次の通りです。

Intel コンパイラはループをベクトル化しようとしています。しかし、追加されるオーバーヘッドは、そもそもベクトル化することによる利点を上回っているようです。そのため、遅くなります。

編集: OP の結果を更新:

ICC x64 ベクトル化なし
ベクトル化による ICC x86

データ型をに変更しましたdouble。これで浮動小数点になりました。整数バージョンで問題となっていた醜い符号シフトはなくなりました。

しかし、x64 バージョンのベクトル化を無効にしているため、明らかに速度が低下します。

ベクトル化された ICC x86:

00B8109E  addpd       xmm0,xmmword ptr arr[edx*8]  
00B810A4  addpd       xmm1,xmmword ptr [esp+edx*8+40h]  
00B810AA  addpd       xmm0,xmmword ptr [esp+edx*8+50h]  
00B810B0  addpd       xmm1,xmmword ptr [esp+edx*8+60h]  
00B810B6  add         edx,8  
00B810B9  cmp         edx,400h  
00B810BF  jb          wmain+9Eh (0B8109Eh)

ここにはそれほど多くはありません - 標準的なベクトル化 + 4 回のループ展開。

ベクトル化なしの ICC x64:

000000013FC010B2  lea         ecx,[rdx+rdx]  
000000013FC010B5  inc         edx  
000000013FC010B7  cmp         edx,200h  
000000013FC010BD  addsd       xmm6,mmword ptr arr[rcx*8]  
000000013FC010C3  addsd       xmm6,mmword ptr [rsp+rcx*8+58h]  
000000013FC010C9  jb          wmain+0B2h (13FC010B2h)

ベクトル化なし + ループ展開は 2 回のみ。

他の条件が同じであれば、ベクトル化を無効にすると、この浮動小数点の場合のパフォーマンスが低下します。

Answer 1

要約: ここで見ているのはICCのループのベクトル化の失敗。

まずは MSVC x64 から始めましょう:

重要なループは次のとおりです。

$LL3@main:
movsxd  rax, DWORD PTR [rdx-4]
movsxd  rcx, DWORD PTR [rdx-8]
add rdx, 16
add r10, rax
movsxd  rax, DWORD PTR [rdx-16]
add rbx, rcx
add r9, rax
movsxd  rax, DWORD PTR [rdx-12]
add r8, rax
dec r11
jne SHORT $LL3@main

ここで見られるのは、コンパイラによる標準的なループ展開です。MSVC は 4 回の反復に展開し、変数を、、、varの 4 つのレジスタに分割します。その後、ループの最後で、これらの 4 つのレジスタが再び合計されます。r10rbxr9r8

ここで 4 つの合計が再結合されます。

lea rax, QWORD PTR [r8+r9]
add rax, r10
add rbx, rax
dec rdi
jne SHORT $LL6@main

MSVC は現在、自動ベクトル化を行わないことに注意してください。

それでは、ICC 出力の一部を見てみましょう。

000000013F0510A2  movq        xmm2,mmword ptr arr[rcx]  
000000013F0510A8  add         r8,8  
000000013F0510AC  punpckldq   xmm2,xmm2  
000000013F0510B0  add         rcx,20h  
000000013F0510B4  movdqa      xmm3,xmm2  
000000013F0510B8  pand        xmm2,xmm0  
000000013F0510BC  movq        xmm4,mmword ptr [rdx+8]  
000000013F0510C1  psrad       xmm3,1Fh  
000000013F0510C6  punpckldq   xmm4,xmm4  
000000013F0510CA  pand        xmm3,xmm1  
000000013F0510CE  por         xmm3,xmm2  
000000013F0510D2  movdqa      xmm5,xmm4  
000000013F0510D6  movq        xmm2,mmword ptr [rdx+10h]  
000000013F0510DB  psrad       xmm5,1Fh  
000000013F0510E0  punpckldq   xmm2,xmm2  
000000013F0510E4  pand        xmm5,xmm1  
000000013F0510E8  paddq       xmm6,xmm3  

...

ここで表示されているのは、ICC がこのループをベクトル化しようとする試みです。これは、MSVC が行った方法 (複数の合計に分割) と同様の方法で行われますが、代わりに SSE レジスタを使用し、レジスタごとに 2 つの合計を使用します。

しかし、ベクトル化のオーバーヘッドがベクトル化の利点を上回っていることが判明しました。

これらの命令を 1 つずつ見ていくと、ICC がどのようにベクトル化しようとしているかがわかります。

//  Load two ints using a 64-bit load.  {x, y, 0, 0}
movq        xmm2,mmword ptr arr[rcx]  

//  Shuffle the data into this form.
punpckldq   xmm2,xmm2           xmm2 = {x, x, y, y}
movdqa      xmm3,xmm2           xmm3 = {x, x, y, y}

//  Mask out index 1 and 3.
pand        xmm2,xmm0           xmm2 = {x, 0, y, 0}

//  Arithmetic right-shift to copy sign-bit across the word.
psrad       xmm3,1Fh            xmm3 = {sign(x), sign(x), sign(y), sign(y)}

//  Mask out index 0 and 2.
pand        xmm3,xmm1           xmm3 = {0, sign(x), 0, sign(y)}

//  Combine to get sign-extended values.
por         xmm3,xmm2           xmm3 = {x, sign(x), y, sign(y)}
                                xmm3 = {x, y}

//  Add to accumulator...
paddq       xmm6,xmm3

つまり、ベクトル化するためだけに、非常に面倒なアンパック処理が行われます。この面倒さは、SSE 命令のみを使用して 32 ビット整数を 64 ビットに符号拡張する必要があることから生じます。

SSE4.1 は実際にPMOVSXDQこの目的のための命令を提供します。ただし、ターゲットマシンが SSE4.1 をサポートしていないか、ICC がこの場合にはそれを使用できるほどスマートではありません。

しかし、ポイントは次の通りです。

Intel コンパイラはループをベクトル化しようとしています。しかし、追加されるオーバーヘッドは、そもそもベクトル化することによる利点を上回っているようです。そのため、遅くなります。

編集: OP の結果を更新:

ICC x64 ベクトル化なし
ベクトル化による ICC x86

データ型をに変更しましたdouble。これで浮動小数点になりました。整数バージョンで問題となっていた醜い符号シフトはなくなりました。

しかし、x64 バージョンのベクトル化を無効にしているため、明らかに速度が低下します。

ベクトル化された ICC x86:

00B8109E  addpd       xmm0,xmmword ptr arr[edx*8]  
00B810A4  addpd       xmm1,xmmword ptr [esp+edx*8+40h]  
00B810AA  addpd       xmm0,xmmword ptr [esp+edx*8+50h]  
00B810B0  addpd       xmm1,xmmword ptr [esp+edx*8+60h]  
00B810B6  add         edx,8  
00B810B9  cmp         edx,400h  
00B810BF  jb          wmain+9Eh (0B8109Eh)

ここにはそれほど多くはありません - 標準的なベクトル化 + 4 回のループ展開。

ベクトル化なしの ICC x64:

000000013FC010B2  lea         ecx,[rdx+rdx]  
000000013FC010B5  inc         edx  
000000013FC010B7  cmp         edx,200h  
000000013FC010BD  addsd       xmm6,mmword ptr arr[rcx*8]  
000000013FC010C3  addsd       xmm6,mmword ptr [rsp+rcx*8+58h]  
000000013FC010C9  jb          wmain+0B2h (13FC010B2h)

ベクトル化なし + ループ展開は 2 回のみ。

他の条件が同じであれば、ベクトル化を無効にすると、この浮動小数点の場合のパフォーマンスが低下します。

C++ vs Java? ICC が VC よりも遅いコードを生成するのはなぜですか? [closed] 質問する

ベストアンサー1

編集: OP の結果を更新:

おすすめ記事