ちょうど 8192 個の要素をループするときにプログラムが遅くなるのはなぜですか? 質問する

Question

この違いは、次の関連する質問からの同じスーパーアライメントの問題によって発生します。

しかし、それはコードにもう一つ問題があるからです。

元のループから開始します:

for(i=1;i<SIZE-1;i++) 
    for(j=1;j<SIZE-1;j++) {
        res[j][i]=0;
        for(k=-1;k<2;k++) 
            for(l=-1;l<2;l++) 
                res[j][i] += img[j+l][i+k];
        res[j][i] /= 9;
}

まず、2 つの内部ループが単純であることに注目してください。これらは次のように展開できます。

for(i=1;i<SIZE-1;i++) {
    for(j=1;j<SIZE-1;j++) {
        res[j][i]=0;
        res[j][i] += img[j-1][i-1];
        res[j][i] += img[j  ][i-1];
        res[j][i] += img[j+1][i-1];
        res[j][i] += img[j-1][i  ];
        res[j][i] += img[j  ][i  ];
        res[j][i] += img[j+1][i  ];
        res[j][i] += img[j-1][i+1];
        res[j][i] += img[j  ][i+1];
        res[j][i] += img[j+1][i+1];
        res[j][i] /= 9;
    }
}

つまり、私たちが興味を持っているのは外側の 2 つのループだけです。

この質問でも問題は同じであることがわかります。2D 配列を反復処理するときに、ループの順序がパフォーマンスに影響するのはなぜですか?

行方向ではなく列方向に行列を反復しています。

この問題を解決するには、2 つのループを交換する必要があります。

for(j=1;j<SIZE-1;j++) {
    for(i=1;i<SIZE-1;i++) {
        res[j][i]=0;
        res[j][i] += img[j-1][i-1];
        res[j][i] += img[j  ][i-1];
        res[j][i] += img[j+1][i-1];
        res[j][i] += img[j-1][i  ];
        res[j][i] += img[j  ][i  ];
        res[j][i] += img[j+1][i  ];
        res[j][i] += img[j-1][i+1];
        res[j][i] += img[j  ][i+1];
        res[j][i] += img[j+1][i+1];
        res[j][i] /= 9;
    }
}

これにより、すべての非シーケンシャルアクセスが完全に排除されるため、2 の大きな累乗でランダムに速度が低下することはなくなります。

コア i7 920 @ 3.5GHz

元のコード:

8191: 1.499 seconds
8192: 2.122 seconds
8193: 1.582 seconds

交換された外側のループ:

8191: 0.376 seconds
8192: 0.357 seconds
8193: 0.351 seconds

Answer 1