Spark - repartition() と coalesce() の比較質問する

Question

完全なシャッフルを回避します。数が減少することが分かっている場合、エグゼキュータは最小限の数のパーティションにデータを安全に保持し、余分なノードから保持したノードにデータを移動するだけです。

つまり、次のようになります。

Node 1 = 1,2,3
Node 2 = 4,5,6
Node 3 = 7,8,9
Node 4 = 10,11,12

次に、coalesce2 つのパーティションに分けます。

Node 1 = 1,2,3 + (10,11,12)
Node 3 = 7,8,9 + (4,5,6)

ノード 1 とノード 3 では元のデータを移動する必要がないことに注意してください。

Answer 1

完全なシャッフルを回避します。数が減少することが分かっている場合、エグゼキュータは最小限の数のパーティションにデータを安全に保持し、余分なノードから保持したノードにデータを移動するだけです。

つまり、次のようになります。

Node 1 = 1,2,3
Node 2 = 4,5,6
Node 3 = 7,8,9
Node 4 = 10,11,12

次に、coalesce2 つのパーティションに分けます。

Node 1 = 1,2,3 + (10,11,12)
Node 3 = 7,8,9 + (4,5,6)

ノード 1 とノード 3 では元のデータを移動する必要がないことに注意してください。

おすすめ記事