アトミック x86 命令のアラインメント要件と MS の InterlockedCompareExchange ドキュメントの違いは何ですか? 質問する

Question

x86はないlock cmpxchg命令をアトミックにするにはアライメントが必要です。ただし、良好なパフォーマンスを得るにはアライメントが不可欠です。

これは驚くことではありません。下位互換性とは、14 年前のマニュアルで作成されたソフトウェアが、今日のプロセッサでも実行できることを意味します。現代の CPU には、スプリットlock検出は非常に高価なため、専用のパフォーマンスカウンターさえあります。(コアは、操作中は単一のキャッシュラインへの排他的アクセスを保持するだけでは不十分で、従来のバスロックのような処理を実行する必要があります)。

Microsoft がなぜアライメント要件を文書化しているのかは明確ではありません。RISC アーキテクチャをサポートするためには確かに必要ですが、マルチプロセッサ x86 での予測不可能な動作という具体的な主張は有効ではない可能性があります (正確性の問題ではなく、予測不可能なパフォーマンスを意味している場合を除く)。

486以前のシステムにのみ適用されるというあなたの推測はlock cmpxchg正しいかもしれません。そこでは、純粋なロードや純粋なストアの周りに何らかのロックを必要とするような異なるメカニズムが必要だったでしょう。（また、486にはcmpxchg異なる、現在文書化されていないオペコード（0f a7）からモダンなcmpxchg（0f b1）これは 586 Pentium で新しく追加された機能です。Windows ではcmpxchgP5 Pentium 以降でのみ使用されていた可能性がありますが、私にはわかりません。) これにより、一部の x86 での異常が説明される可能性がありますが、最新の x86 での異常を意味するものではありません。

Intel® 64 および IA-32 アーキテクチャソフトウェアデベロッパーズマニュアル
第 3 巻 (3A): システムプログラミングガイド
2013 年 1 月

8.1.2.2 ソフトウェア制御のバスロック

LOCK セマンティクスを明示的に強制するには、ソフトウェアでメモリ位置を変更するときに、次の命令に LOCK プレフィックスを使用できます。 [...]

• 交換命令 (XADD、CMPXCHG、CMPXCHG8B)。
• XCHG 命令では、LOCK プレフィックスが自動的に想定されます。
• [...]

[...] バスロックの整合性は、メモリフィールドのアラインメントの影響を受けません。 LOCK セマンティクスは、オペランド全体を更新するために必要な数のバスサイクルで適用されます。ただし、システムパフォーマンスを向上させるには、ロックされたアクセスを自然な境界に合わせることをお勧めします。

• 8 ビットアクセスの任意の境界 (ロックされているかどうかに関係なく)。
• ロックされたワードアクセスの 16 ビット境界。
• ロックされたダブルワードアクセスの 32 ビット境界。
• ロックされたクワッドワードアクセスの 64 ビット境界。

楽しい事実：cmpxchg それなしプレフィックスlockはコンテキストスイッチに関して依然としてアトミックであるなので、シングルコアシステムでのマルチスレッドに使用できます。

ミスアラインメントであっても、割り込みに関してはアトミックであり (完全に前か完全に後)、ティアリングが発生する可能性があるのは他のデバイス (DMA など) によるメモリ読み取りのみです。ただし、このようなアクセスではロードとストアが分離される可能性があるため、古い Windows がシングルコアシステムでより効率的な InterlockedCompareExchange にこれを使用していたとしても、正確性のためにアラインメントは必要なく、パフォーマンスのみが必要です。これがハードウェアアクセスに使用できる場合、Windows はおそらくこれを実行しないでしょう。

ライブラリ関数がlock cmpxchgこれとは別に純粋なロードを実行する必要がある場合は意味があるかもしれませんが、そうする必要はありません。(インライン化されていない場合、32 ビットバージョンはスタックから引数をロードする必要がありますが、これはプライベートであり、共有変数へのアクセスではありません。)

Answer 1

x86はないlock cmpxchg命令をアトミックにするにはアライメントが必要です。ただし、良好なパフォーマンスを得るにはアライメントが不可欠です。