SparkでParquetファイルから特定の列を読み取る効率的な方法質問する

Question

val df = spark.read.parquet("fs://path/file.parquet").select(...)

これにより、対応する列のみが読み取られます。実際、Parquet は列指向ストレージであり、まさにこのタイプの使用例向けです。実行してみるdf.explainと、Spark は対応する列のみが読み取られたことを通知します (実行プランを出力します)。explainまた、where 条件も使用している場合は、どのフィルターが実行の物理プランにプッシュダウンされたかも通知します。最後に、次のコードを使用して、データフレーム (行のデータセット) をケースクラスのデータセットに変換します。

case class MyData...
val ds = df.as[MyData]

Answer 1

val df = spark.read.parquet("fs://path/file.parquet").select(...)

これにより、対応する列のみが読み取られます。実際、Parquet は列指向ストレージであり、まさにこのタイプの使用例向けです。実行してみるdf.explainと、Spark は対応する列のみが読み取られたことを通知します (実行プランを出力します)。explainまた、where 条件も使用している場合は、どのフィルターが実行の物理プランにプッシュダウンされたかも通知します。最後に、次のコードを使用して、データフレーム (行のデータセット) をケースクラスのデータセットに変換します。

case class MyData...
val ds = df.as[MyData]

SparkでParquetファイルから特定の列を読み取る効率的な方法質問する

ベストアンサー1

おすすめ記事