読み取る Spark コンテキストへの 3 つのファイル パスを指定し、各ファイルの最初の行にスキーマがあるとします。ヘッダーからスキーマ行をスキップするにはどうすればよいでしょうか。
val rdd=sc.textFile("file1,file2,file3")
さて、この rdd からヘッダー行をスキップするにはどうすればよいでしょうか?
ベストアンサー1
data = sc.textFile('path_to_data')
header = data.first() #extract header
data = data.filter(row => row != header) #filter out header