Spark におけるアプリケーション、ジョブ、ステージ、タスクの概念とは何ですか? 質問する

Spark におけるアプリケーション、ジョブ、ステージ、タスクの概念とは何ですか? 質問する

私の理解は正しいでしょうか?

  1. アプリケーション: 1 つの Spark Submit。

  2. ジョブ: 遅延評価が発生すると、ジョブが発生します。

  3. ステージ:シャッフルと変形タイプに関係しますが、ステージの境界がわかりにくいです。

  4. タスク: 単位操作です。タスクごとに 1 つの変換。変換ごとに 1 つのタスク。

ヘルプはこの理解を深めたいと考えていました。

ベストアンサー1

主な機能はアプリケーションです。

RDD でアクションを呼び出すと、「ジョブ」が作成されます。ジョブは Spark に送信される作業です。

ジョブは、シャッフル境界に基づいて「ステージ」に分割されます。

各ステージは、RDD 内のパーティションの数に基づいてさらにタスクに分割されます。つまり、タスクは Spark の最小の作業単位です。

おすすめ記事