HDF の場所から多数のテキスト ファイルを読み取り、Spark を使用して反復的にマッピングを実行したいと考えています。
JavaRDD<String> records = ctx.textFile(args[1], 1);
一度に 1 つのファイルのみを読み取ることができます。
複数のファイルを読み取り、単一の RDD として処理したいです。どうすればいいでしょうか?
ベストアンサー1
ディレクトリ全体を指定したり、ワイルドカードを使用したり、ディレクトリとワイルドカードの CSV を使用することもできます。例:
sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")
ニック・チャマスが指摘するように、これはHadoopのFileInputFormat
したがって、これは Hadoop (および Scalding) でも機能します。