コレクションの内容を Spark コンソールに出力しようとしています。
私のタイプは次の通りです:
linesWithSessionId: org.apache.spark.rdd.RDD[String] = FilteredRDD[3]
そして、次のコマンドを使用します:
scala> linesWithSessionId.map(line => println(line))
しかし、これは印刷されています:
res1: org.apache.spark.rdd.RDD[Unit] = MappedRDD[4] マップの時刻:19
RDD をコンソールに書き込んだり、ディスクに保存してその内容を表示するにはどうすればよいですか?
ベストアンサー1
RDD の内容を表示する方法の 1 つは、次のとおりですcollect()
。
myRDD.collect().foreach(println)
しかし、RDD に数十億行ある場合は、これは良い考えではありません。 を使用して、take()
いくつかだけを印刷します。
myRDD.take(n).foreach(println)