2048x2048 配列の乗算と 2047x2047 配列の乗算でパフォーマンスが大幅に低下するのはなぜですか? 質問する

Question

これはおそらく L2 キャッシュの競合に関係しています。

matice1 のキャッシュミスは、順番にアクセスされるため問題にはなりません。ただし、matice2 の場合、列全体が L2 に収まる場合 (つまり、matice2[0, 0]、matice2[1, 0]、matice2[2, 0] などにアクセスすると、何も削除されない)、matice2 のキャッシュミスも問題になりません。

キャッシュの仕組みを詳しく説明すると、変数のバイトアドレスが X の場合、そのキャッシュラインは (X >> 6) & (L - 1) になります。ここで、L はキャッシュ内のキャッシュラインの合計数です。L は常に 2 の累乗です。6 は、2^6 == 64 バイトがキャッシュラインの標準サイズであるという事実に由来します。

これは何を意味するのでしょうか? つまり、アドレス X とアドレス Y があり、(X >> 6) - (Y >> 6) が L (つまり、2 の大きな累乗) で割り切れる場合、それらは同じキャッシュラインに格納されるということです。

さて、あなたの問題に戻りましょう。2048年と2049年の違いは何でしょうか？

2048があなたのサイズの場合:

&matice2[x, k] と &matice2[y, k] を取ると、その差 (&matice2[x, k] >> 6) - (&matice2[y,k] >> 6) は 2048 * 4 (float のサイズ) で割り切れます。つまり、2 の大きな累乗です。

したがって、L2 のサイズによっては、キャッシュラインの競合が多く発生し、列を格納するために L2 のごく一部しか使用されないことになります。そのため、実際にはキャッシュに列全体を格納できず、パフォーマンスが低下します。

サイズが 2049 の場合、差は 2049 * 4 となり、2 の累乗ではないため、競合が少なくなり、列がキャッシュに安全に収まります。

この理論をテストするには、次の 2 つの方法があります。

配列 matice2 を matice2 [razmor, 4096] のように割り当て、razmor = 1024、1025 または任意のサイズで実行すると、以前と比べてパフォーマンスが非常に悪くなることがわかります。これは、すべての列が互いに競合するように強制的に配置しているためです。

次に、matice2 [razmor、4097] を試して、任意のサイズで実行すると、パフォーマンスが大幅に向上するはずです。

Answer 1