要素ごとの加算が、結合ループよりも個別のループで実行した場合の方がはるかに高速なのはなぜですか? 質問する

Question

これをさらに分析すると、これは (少なくとも部分的には) 4 つのポインターのデータ配置によって発生していると考えられます。これにより、ある程度のキャッシュバンク/ウェイの競合が発生します。

配列の割り当て方法を正しく推測すると、配列はページ行に揃えられる可能性があります。

これは、各ループのすべてのアクセスが同じキャッシュウェイに配置されることを意味します。ただし、Intel プロセッサは以前から 8 ウェイ L1 キャッシュアソシエティビティを備えています。しかし、実際にはパフォーマンスは完全に均一ではありません。4 ウェイのアクセスは、2 ウェイのアクセスよりも依然として低速です。

編集: 実際には、すべての配列を別々に割り当てているように見えます。通常、このような大規模な割り当てが要求されると、アロケータは OS に新しいページを要求します。したがって、大規模な割り当てがページ境界からの同じオフセットに表示される可能性が高くなります。

テストコードは次のとおりです。

int main(){
    const int n = 100000;

#ifdef ALLOCATE_SEPERATE
    double *a1 = (double*)malloc(n * sizeof(double));
    double *b1 = (double*)malloc(n * sizeof(double));
    double *c1 = (double*)malloc(n * sizeof(double));
    double *d1 = (double*)malloc(n * sizeof(double));
#else
    double *a1 = (double*)malloc(n * sizeof(double) * 4);
    double *b1 = a1 + n;
    double *c1 = b1 + n;
    double *d1 = c1 + n;
#endif

    //  Zero the data to prevent any chance of denormals.
    memset(a1,0,n * sizeof(double));
    memset(b1,0,n * sizeof(double));
    memset(c1,0,n * sizeof(double));
    memset(d1,0,n * sizeof(double));

    //  Print the addresses
    cout << a1 << endl;
    cout << b1 << endl;
    cout << c1 << endl;
    cout << d1 << endl;

    clock_t start = clock();

    int c = 0;
    while (c++ < 10000){

#if ONE_LOOP
        for(int j=0;j<n;j++){
            a1[j] += b1[j];
            c1[j] += d1[j];
        }
#else
        for(int j=0;j<n;j++){
            a1[j] += b1[j];
        }
        for(int j=0;j<n;j++){
            c1[j] += d1[j];
        }
#endif

    }

    clock_t end = clock();
    cout << "seconds = " << (double)(end - start) / CLOCKS_PER_SEC << endl;

    system("pause");
    return 0;
}

ベンチマーク結果:

編集:実際のCore 2 アーキテクチャマシンでの結果:

2 x Intel Xeon X5482 Harpertown @ 3.2 GHz:

#define ALLOCATE_SEPERATE
#define ONE_LOOP
00600020
006D0020
007A0020
00870020
seconds = 6.206

#define ALLOCATE_SEPERATE
//#define ONE_LOOP
005E0020
006B0020
00780020
00850020
seconds = 2.116

//#define ALLOCATE_SEPERATE
#define ONE_LOOP
00570020
00633520
006F6A20
007B9F20
seconds = 1.894

//#define ALLOCATE_SEPERATE
//#define ONE_LOOP
008C0020
00983520
00A46A20
00B09F20
seconds = 1.993

観察:

1 ループで6.206 秒、2 ループで2.116 秒。これは OP の結果を正確に再現します。
最初の 2 つのテストでは、配列は別々に割り当てられます。ページに対してすべての配列が同じ配置になっていることがわかります。
2 番目の 2 つのテストでは、配列が一緒にパックされて、そのアラインメントが解除されます。ここでは、両方のループが高速になっていることがわかります。さらに、通常予想されるとおり、2 番目の (二重) ループの方が低速になっています。

@Stephen Cannon がコメントで指摘しているように、このアラインメントによってロード/ストアユニットまたはキャッシュで誤ったエイリアシングが発生する可能性が非常に高いです。これについて Google で検索したところ、Intel には部分的なアドレスエイリアシングストール用のハードウェアカウンターがあることが分かりました。

http://software.intel.com/sites/products/documentation/doclib/stdxe/2013/~amplifierxe/pmw_dp/events/partial_address_alias.html

5つの地域 - 説明

地域1:

これは簡単です。データセットが非常に小さいため、パフォーマンスはループや分岐などのオーバーヘッドによって左右されます。

地域2:

ここで、データサイズが増加すると、相対的なオーバーヘッドの量が減り、パフォーマンスが「飽和」します。ここで、2 つのループは、ループと分岐のオーバーヘッドが 2 倍になるため、遅くなります。

ここで何が起こっているのか正確にはわかりません...アグナー・フォグが言うように、アラインメントはまだ影響を与える可能性がありますキャッシュバンクの競合(このリンクは Sandy Bridge に関するものですが、その考え方は Core 2 にも当てはまるはずです。)

地域3:

この時点で、データは L1 キャッシュに収まらなくなります。そのため、パフォーマンスは L1 <-> L2 キャッシュ帯域幅によって制限されます。

地域4:

私たちが観察しているのは、単一ループでのパフォーマンスの低下です。そして、前述したように、これはアラインメントによるもので、プロセッサのロード/ストアユニットで誤ったエイリアシングストールを引き起こす可能性が最も高いです。

ただし、誤ったエイリアシングが発生するには、データセット間に十分な間隔が必要です。これが、領域 3 でこれが見られない理由です。

地域5:

この時点では、キャッシュに収まるものは何もありません。そのため、メモリ帯域幅に制限されます。

2 x Intel X5482 ハーパータウン @ 3.2 GHz インテル Core i7 870 @ 2.8GHz インテル Core i7 2600K @ 4.4GHz

Answer 1

これをさらに分析すると、これは (少なくとも部分的には) 4 つのポインターのデータ配置によって発生していると考えられます。これにより、ある程度のキャッシュバンク/ウェイの競合が発生します。

配列の割り当て方法を正しく推測すると、配列はページ行に揃えられる可能性があります。

これは、各ループのすべてのアクセスが同じキャッシュウェイに配置されることを意味します。ただし、Intel プロセッサは以前から 8 ウェイ L1 キャッシュアソシエティビティを備えています。しかし、実際にはパフォーマンスは完全に均一ではありません。4 ウェイのアクセスは、2 ウェイのアクセスよりも依然として低速です。

編集: 実際には、すべての配列を別々に割り当てているように見えます。通常、このような大規模な割り当てが要求されると、アロケータは OS に新しいページを要求します。したがって、大規模な割り当てがページ境界からの同じオフセットに表示される可能性が高くなります。

テストコードは次のとおりです。

int main(){
    const int n = 100000;

#ifdef ALLOCATE_SEPERATE
    double *a1 = (double*)malloc(n * sizeof(double));
    double *b1 = (double*)malloc(n * sizeof(double));
    double *c1 = (double*)malloc(n * sizeof(double));
    double *d1 = (double*)malloc(n * sizeof(double));
#else
    double *a1 = (double*)malloc(n * sizeof(double) * 4);
    double *b1 = a1 + n;
    double *c1 = b1 + n;
    double *d1 = c1 + n;
#endif

    //  Zero the data to prevent any chance of denormals.
    memset(a1,0,n * sizeof(double));
    memset(b1,0,n * sizeof(double));
    memset(c1,0,n * sizeof(double));
    memset(d1,0,n * sizeof(double));

    //  Print the addresses
    cout << a1 << endl;
    cout << b1 << endl;
    cout << c1 << endl;
    cout << d1 << endl;

    clock_t start = clock();

    int c = 0;
    while (c++ < 10000){

#if ONE_LOOP
        for(int j=0;j<n;j++){
            a1[j] += b1[j];
            c1[j] += d1[j];
        }
#else
        for(int j=0;j<n;j++){
            a1[j] += b1[j];
        }
        for(int j=0;j<n;j++){
            c1[j] += d1[j];
        }
#endif

    }

    clock_t end = clock();
    cout << "seconds = " << (double)(end - start) / CLOCKS_PER_SEC << endl;

    system("pause");
    return 0;
}

ベンチマーク結果:

編集:実際のCore 2 アーキテクチャマシンでの結果:

2 x Intel Xeon X5482 Harpertown @ 3.2 GHz:

#define ALLOCATE_SEPERATE
#define ONE_LOOP
00600020
006D0020
007A0020
00870020
seconds = 6.206

#define ALLOCATE_SEPERATE
//#define ONE_LOOP
005E0020
006B0020
00780020
00850020
seconds = 2.116

//#define ALLOCATE_SEPERATE
#define ONE_LOOP
00570020
00633520
006F6A20
007B9F20
seconds = 1.894

//#define ALLOCATE_SEPERATE
//#define ONE_LOOP
008C0020
00983520
00A46A20
00B09F20
seconds = 1.993

観察:

1 ループで6.206 秒、2 ループで2.116 秒。これは OP の結果を正確に再現します。
最初の 2 つのテストでは、配列は別々に割り当てられます。ページに対してすべての配列が同じ配置になっていることがわかります。
2 番目の 2 つのテストでは、配列が一緒にパックされて、そのアラインメントが解除されます。ここでは、両方のループが高速になっていることがわかります。さらに、通常予想されるとおり、2 番目の (二重) ループの方が低速になっています。

@Stephen Cannon がコメントで指摘しているように、このアラインメントによってロード/ストアユニットまたはキャッシュで誤ったエイリアシングが発生する可能性が非常に高いです。これについて Google で検索したところ、Intel には部分的なアドレスエイリアシングストール用のハードウェアカウンターがあることが分かりました。

http://software.intel.com/sites/products/documentation/doclib/stdxe/2013/~amplifierxe/pmw_dp/events/partial_address_alias.html

5つの地域 - 説明

地域1:

これは簡単です。データセットが非常に小さいため、パフォーマンスはループや分岐などのオーバーヘッドによって左右されます。

地域2:

ここで、データサイズが増加すると、相対的なオーバーヘッドの量が減り、パフォーマンスが「飽和」します。ここで、2 つのループは、ループと分岐のオーバーヘッドが 2 倍になるため、遅くなります。

ここで何が起こっているのか正確にはわかりません...アグナー・フォグが言うように、アラインメントはまだ影響を与える可能性がありますキャッシュバンクの競合(このリンクは Sandy Bridge に関するものですが、その考え方は Core 2 にも当てはまるはずです。)

地域3:

この時点で、データは L1 キャッシュに収まらなくなります。そのため、パフォーマンスは L1 <-> L2 キャッシュ帯域幅によって制限されます。

地域4:

私たちが観察しているのは、単一ループでのパフォーマンスの低下です。そして、前述したように、これはアラインメントによるもので、プロセッサのロード/ストアユニットで誤ったエイリアシングストールを引き起こす可能性が最も高いです。

ただし、誤ったエイリアシングが発生するには、データセット間に十分な間隔が必要です。これが、領域 3 でこれが見られない理由です。

地域5:

この時点では、キャッシュに収まるものは何もありません。そのため、メモリ帯域幅に制限されます。

2 x Intel X5482 ハーパータウン @ 3.2 GHz インテル Core i7 870 @ 2.8GHz インテル Core i7 2600K @ 4.4GHz

要素ごとの加算が、結合ループよりも個別のループで実行した場合の方がはるかに高速なのはなぜですか? 質問する

ベストアンサー1

編集:実際のCore 2 アーキテクチャマシンでの結果:

5つの地域 - 説明

おすすめ記事

ベストアンサー1

編集:実際のCore 2 アーキテクチャ マシンでの結果:

5つの地域 - 説明

おすすめ記事

編集:実際のCore 2 アーキテクチャマシンでの結果: