最新の x86-64 clang でソートされていない配列を処理する速度が、ソートされた配列を処理する速度と同じなのはなぜですか? 質問する

Question

リンク先の質問の回答のいくつかでは、コードを分岐なしに書き直して分岐予測の問題を回避することについて触れています。更新されたコンパイラはまさにそれを行っています。

具体的には、clang++ 10と-O3 ベクトル化する内側のループ。godboltのコードを見る、アセンブリの 36 行目から 67 行目です。コードは少し複雑ですが、テストで条件分岐がまったく見られないのは確かです。代わりに、一致する要素には 1、一致しない要素には 0 が出力されるマスクであるdata[c] >= 128ベクトル比較命令 ( ) を使用します。このマスクを使用した後続の命令は、一致しない要素を 0 に置き換えます。そのため、無条件に合計に追加されても、一致しない要素は何も寄与しません。pcmpgtdpand

大まかにC++で言えば

sum += data[c] & -(data[c] >= 128);

コードは実際には、配列の偶数要素と奇数要素に対して 2 つの 64 ビットの実行状態を保持しsum、それらを並列に累積してループの最後に合計できるようにします。

追加の複雑さの一部は、32 ビットdata要素を 64 ビットに符号拡張することです。これは、次のようなシーケンスによってpxor xmm5, xmm5 ; pcmpgtd xmm5, xmm4 ; punpckldq xmm4, xmm5実現されます。オンにすると、代わりにより-mavx2単純なものが表示されます。vpmovsxdq ymm5, xmm5

ループが展開され、data反復ごとに 8 つの要素が処理されるため、コードも長く見えます。

Answer 1

リンク先の質問の回答のいくつかでは、コードを分岐なしに書き直して分岐予測の問題を回避することについて触れています。更新されたコンパイラはまさにそれを行っています。