複数のテキストファイルを単一のRDDに読み込むにはどうすればいいですか? 質問する

Question

ディレクトリ全体を指定したり、ワイルドカードを使用したり、ディレクトリとワイルドカードの CSV を使用することもできます。例:

sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")

ニック・チャマスが指摘するように、これはHadoopのFileInputFormatしたがって、これは Hadoop (および Scalding) でも機能します。

Answer 1

ディレクトリ全体を指定したり、ワイルドカードを使用したり、ディレクトリとワイルドカードの CSV を使用することもできます。例:

sc.textFile("/my/dir1,/my/paths/part-00[0-5]*,/another/dir,/a/specific/file")

ニック・チャマスが指摘するように、これはHadoopのFileInputFormatしたがって、これは Hadoop (および Scalding) でも機能します。

おすすめ記事