L1 キャッシュミスのコストはいくらですか? 質問する

Question

ここでは、チョコレートチップクッキーを焼くことに例えて、キャッシュミスの相対的なコストについての洞察を提供しようとします...

あなたの手はあなたのレジスターです。チョコチップを生地に落とすのに1秒かかります。

キッチンカウンターは L1 キャッシュであり、レジスターよりも 12 倍遅いです。カウンターまで歩いて、クルミの袋を手に取り、手に少し取り出すのに、12 x 1 = 12 秒かかります。

冷蔵庫は L2 キャッシュであり、L1 より 4 倍遅いです。冷蔵庫まで歩いて行き、開けて、昨晩の残り物をどかし、卵のパックを取り出し、パックを開けて、カウンターに卵 3 個を置き、パックを冷蔵庫に戻すまでには、4 x 12 = 48 秒かかります。

戸棚は L3 キャッシュで、L2 より 3 倍遅いです。食器棚まで 3 歩進み、かがんでドアを開け、ベーキング用品の缶を探し回り、それを食器棚から取り出し、開け、ベーキングパウダーを探し出し、それをカウンターに置き、床にこぼした汚れを掃き集めるには、3 x 48 = 2 分 24 秒かかります。

ではメインメモリはどうでしょうか? それはコーナーストアで、L3 より 5 倍遅いです。財布を探し、靴とジャケットを履き、道を駆け下り、牛乳 1 リットルを手に取り、家に駆け戻り、靴とジャケットを脱いでキッチンに戻るまでには、5 x 2:24 = 12 分かかります。

ご了承ください全てこれらのアクセスは一定の計算量（O(1)）であるが、それらの違いは巨大なパフォーマンスへの影響。big-O の複雑さだけを最適化することは、生地にチョコチップを 1 個ずつ加えるか 10 個ずつ加えるかを決定しながら、買い物リストにそれを入れるのを忘れるようなものです。

この話の教訓：メモリアクセスを整理して、CPU ができるだけ頻繁にアクセスしなくても済むようにします。

数字はCPU キャッシュフラッシュの誤りブログ投稿によると、特定の 2012 年世代の Intel プロセッサの場合、次のことが当てはまります。

レジスタアクセス = 1サイクルあたり4命令
L1レイテンシ = 3サイクル（12 x レジスタ）
L2レイテンシ = 12サイクル（4 x L1、48 xレジスタ）
L3 レイテンシ = 38 サイクル (3 x L2、12 x L1、144 x レジスタ)
DRAM レイテンシ = 65 ns = 3 GHz CPU で 195 サイクル (5 x L3、15 x L2、60 x L1、720 x レジスタ)

のプロセッサキャッシュ効果のギャラリーこのトピックに関する良い読み物でもあります。

うーん、クッキー…

Answer 1