複数のテキストファイルを単一のRDDに読み込むにはどうすればいいですか? 質問する

複数のテキストファイルを単一のRDDに読み込むにはどうすればいいですか? 質問する

HDF の場所から多数のテキスト ファイルを読み取り、Spark を使用して反復的にマッピングを実行したいと考えています。

JavaRDD<String> records = ctx.textFile(args[1], 1);一度に 1 つのファイルのみを読み取ることができます。

複数のファイルを読み取り、単一の RDD として処理したいです。どうすればいいでしょうか?

ベストアンサー1

ディレクトリ全体を指定したり、ワイルドカードを使用したり、ディレクトリとワイルドカードの CSV を使用することもできます。例:

sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")

ニック・チャマスが指摘するように、これはHadoopのFileInputFormatしたがって、これは Hadoop (および Scalding) でも機能します。

おすすめ記事