DataFrame のパーティションをどのように定義しますか? 質問する

Question

スパーク >= 2.3.0

スパーク-22614範囲パーティションを公開します。

val partitionedByRange = df.repartitionByRange(42, $"k")

partitionedByRange.explain
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k ASC NULLS FIRST], 42
// +- AnalysisBarrier Project [_1#2 AS k#5, _2#3 AS v#6]
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- Project [_1#2 AS k#5, _2#3 AS v#6]
//    +- LocalRelation [_1#2, _2#3]
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- LocalRelation [k#5, v#6]
// 
// == Physical Plan ==
// Exchange rangepartitioning(k#5 ASC NULLS FIRST, 42)
// +- LocalTableScan [k#5, v#6]

スパーク-22389外部フォーマットのパーティションを公開するデータソース API v2。

スパーク >= 1.6.0

Spark >= 1.6 では、クエリとキャッシュに列によるパーティション分割を使用できます。参照:スパーク-11410そしてスパーク-4849使用repartition方法:

val df = Seq(
  ("A", 1), ("B", 2), ("A", 3), ("C", 1)
).toDF("k", "v")

val partitioned = df.repartition($"k")
partitioned.explain

// scala> df.repartition($"k").explain(true)
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Physical Plan ==
// TungstenExchange hashpartitioning(k#7,200), None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- Scan PhysicalRDD[_1#5,_2#6]

RDDsSpark Dataset( Dataset[Row]akaを含む) とは異なり、DataFrame現時点ではカスタムパーティショナーは使用できません。通常は人工的なパーティション列を作成することで対処できますが、同じ柔軟性は得られません。

Spark < 1.6.0:

1つできることは、入力データを事前に分割してからDataFrame

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
import org.apache.spark.HashPartitioner

val schema = StructType(Seq(
  StructField("x", StringType, false),
  StructField("y", LongType, false),
  StructField("z", DoubleType, false)
))

val rdd = sc.parallelize(Seq(
  Row("foo", 1L, 0.5), Row("bar", 0L, 0.0), Row("??", -1L, 2.0),
  Row("foo", -1L, 0.0), Row("??", 3L, 0.6), Row("bar", -3L, 0.99)
))

val partitioner = new HashPartitioner(5) 

val partitioned = rdd.map(r => (r.getString(0), r))
  .partitionBy(partitioner)
  .values

val df = sqlContext.createDataFrame(partitioned, schema)

DataFrameからの作成にはRDD単純なマップフェーズのみが必要なので、既存のパーティションレイアウトは保持される必要があります*:

assert(df.rdd.partitions == partitioned.partitions)

同じ方法で既存のパーティションを再分割できますDataFrame:

sqlContext.createDataFrame(
  df.rdd.map(r => (r.getInt(1), r)).partitionBy(partitioner).values,
  df.schema
)

どうやら不可能ではないようです。それが意味をなすかどうかという疑問が残ります。ほとんどの場合、意味をなさないと私は主張します。

再パーティション化はコストのかかるプロセスです。一般的なシナリオでは、ほとんどのデータをシリアル化、シャッフル、デシリアル化する必要があります。一方、事前にパーティション化されたデータからメリットを得られる操作の数は比較的少なく、内部 API がこの特性を活用するように設計されていない場合はさらに制限されます。
- いくつかのシナリオでは参加しますが、内部のサポートが必要になります。
- ウィンドウ関数は、一致するパーティショナーで呼び出されます。上記と同じですが、単一のウィンドウ定義に制限されます。ただし、内部的にすでにパーティション化されているため、事前のパーティション化は冗長になる可能性があります。
- 単純な集計- 一時バッファのメモリフットプリントを削減することは可能ですが、全体的なコストは大幅に高くなります。 (現在の動作) と(事前パーティション分割)GROUP BYとほぼ同等です。実際には役に立たない可能性があります。groupByKey.mapValues(_.reduce)reduceByKey
- によるデータ圧縮SqlContext.cacheTable。ランレングス符号化を使用しているようなので、適用するとOrderedRDDFunctions.repartitionAndSortWithinPartitions圧縮率が向上する可能性があります。
パフォーマンスはキーの分布に大きく依存します。分布が偏っていると、リソースの使用率が最適ではなくなります。最悪の場合、ジョブを完了することがまったく不可能になります。
高レベルの宣言型APIを使用する主な目的は、低レベルの実装の詳細から自分自身を分離することです。すでに述べたように、フォローそしてロミ・クンツマン最適化は触媒オプティマイザーこれはかなり洗練されたものであり、内部をもっと深く調べなければ、簡単に改善できるとは思えません。

スパーク >= 2.3.0

スパーク-22614範囲パーティションを公開します。

val partitionedByRange = df.repartitionByRange(42, $"k")

partitionedByRange.explain
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k ASC NULLS FIRST], 42
// +- AnalysisBarrier Project [_1#2 AS k#5, _2#3 AS v#6]
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- Project [_1#2 AS k#5, _2#3 AS v#6]
//    +- LocalRelation [_1#2, _2#3]
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#5 ASC NULLS FIRST], 42
// +- LocalRelation [k#5, v#6]
// 
// == Physical Plan ==
// Exchange rangepartitioning(k#5 ASC NULLS FIRST, 42)
// +- LocalTableScan [k#5, v#6]

スパーク-22389外部フォーマットのパーティションを公開するデータソース API v2。

スパーク >= 1.6.0

Spark >= 1.6 では、クエリとキャッシュに列によるパーティション分割を使用できます。参照:スパーク-11410そしてスパーク-4849使用repartition方法:

val df = Seq(
  ("A", 1), ("B", 2), ("A", 3), ("C", 1)
).toDF("k", "v")

val partitioned = df.repartition($"k")
partitioned.explain

// scala> df.repartition($"k").explain(true)
// == Parsed Logical Plan ==
// 'RepartitionByExpression ['k], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Analyzed Logical Plan ==
// k: string, v: int
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Optimized Logical Plan ==
// RepartitionByExpression [k#7], None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- LogicalRDD [_1#5,_2#6], MapPartitionsRDD[3] at rddToDataFrameHolder at <console>:27
// 
// == Physical Plan ==
// TungstenExchange hashpartitioning(k#7,200), None
// +- Project [_1#5 AS k#7,_2#6 AS v#8]
//    +- Scan PhysicalRDD[_1#5,_2#6]

RDDsSpark Dataset( Dataset[Row]akaを含む) とは異なり、DataFrame現時点ではカスタムパーティショナーは使用できません。通常は人工的なパーティション列を作成することで対処できますが、同じ柔軟性は得られません。

Spark < 1.6.0:

1つできることは、入力データを事前に分割してからDataFrame

import org.apache.spark.sql.types._
import org.apache.spark.sql.Row
import org.apache.spark.HashPartitioner

val schema = StructType(Seq(
  StructField("x", StringType, false),
  StructField("y", LongType, false),
  StructField("z", DoubleType, false)
))

val rdd = sc.parallelize(Seq(
  Row("foo", 1L, 0.5), Row("bar", 0L, 0.0), Row("??", -1L, 2.0),
  Row("foo", -1L, 0.0), Row("??", 3L, 0.6), Row("bar", -3L, 0.99)
))

val partitioner = new HashPartitioner(5) 

val partitioned = rdd.map(r => (r.getString(0), r))
  .partitionBy(partitioner)
  .values

val df = sqlContext.createDataFrame(partitioned, schema)

DataFrameからの作成にはRDD単純なマップフェーズのみが必要なので、既存のパーティションレイアウトは保持される必要があります*:

assert(df.rdd.partitions == partitioned.partitions)

同じ方法で既存のパーティションを再分割できますDataFrame:

sqlContext.createDataFrame(
  df.rdd.map(r => (r.getInt(1), r)).partitionBy(partitioner).values,
  df.schema
)

どうやら不可能ではないようです。それが意味をなすかどうかという疑問が残ります。ほとんどの場合、意味をなさないと私は主張します。

再パーティション化はコストのかかるプロセスです。一般的なシナリオでは、ほとんどのデータをシリアル化、シャッフル、デシリアル化する必要があります。一方、事前にパーティション化されたデータからメリットを得られる操作の数は比較的少なく、内部 API がこの特性を活用するように設計されていない場合はさらに制限されます。
- いくつかのシナリオでは参加しますが、内部のサポートが必要になります。
- ウィンドウ関数は、一致するパーティショナーで呼び出されます。上記と同じですが、単一のウィンドウ定義に制限されます。ただし、内部的にすでにパーティション化されているため、事前のパーティション化は冗長になる可能性があります。
- 単純な集計- 一時バッファのメモリフットプリントを削減することは可能ですが、全体的なコストは大幅に高くなります。 (現在の動作) と(事前パーティション分割)GROUP BYとほぼ同等です。実際には役に立たない可能性があります。groupByKey.mapValues(_.reduce)reduceByKey
- によるデータ圧縮SqlContext.cacheTable。ランレングス符号化を使用しているようなので、適用するとOrderedRDDFunctions.repartitionAndSortWithinPartitions圧縮率が向上する可能性があります。
パフォーマンスはキーの分布に大きく依存します。分布が偏っていると、リソースの使用率が最適ではなくなります。最悪の場合、ジョブを完了することがまったく不可能になります。
高レベルの宣言型APIを使用する主な目的は、低レベルの実装の詳細から自分自身を分離することです。すでに述べたように、フォローそしてロミ・クンツマン最適化は触媒オプティマイザーこれはかなり洗練されたものであり、内部をもっと深く調べなければ、簡単に改善できるとは思えません。

DataFrame のパーティションをどのように定義しますか? 質問する

ベストアンサー1

スパーク >= 2.3.0

スパーク >= 1.6.0

Spark < 1.6.0:

関連概念

おすすめ記事