キーによる複数の出力への書き込み Spark - 1 つの Spark ジョブ質問する

Question

Spark 1.4以降を使用している場合は、データフレームAPI（DataFramesはSpark 1.3で導入されましたが、partitionBy()必要なのは1.4で導入。

RDD から始める場合は、まずそれを DataFrame に変換する必要があります。

val people_rdd = sc.parallelize(Seq((1, "alice"), (1, "bob"), (2, "charlie")))
val people_df = people_rdd.toDF("number", "name")

Python では、同じコードは次のようになります。

people_rdd = sc.parallelize([(1, "alice"), (1, "bob"), (2, "charlie")])
people_df = people_rdd.toDF(["number", "name"])

DataFrame を取得したら、特定のキーに基づいて複数の出力に書き込むのは簡単です。さらに、これが DataFrame API の優れた点ですが、コードは Python、Scala、Java、R でほぼ同じです。

people_df.write.partitionBy("number").text("people")

必要に応じて、他の出力形式も簡単に使用できます。

people_df.write.partitionBy("number").json("people-json")
people_df.write.partitionBy("number").parquet("people-parquet")

これらの各例では、Spark は DataFrame をパーティション分割したキーごとにサブディレクトリを作成します。

people/
  _SUCCESS
  number=1/
    part-abcd
    part-efgh
  number=2/
    part-abcd
    part-efgh

Answer 1