大規模なデータセットをマージする最速の方法

Question

私が正しく理解したら、すべてのファイルから1つの（100GBサイズ？）ファイルを作成したいと思います。この場合、猫は次のようにすることができます。

cat foo1 foo2 bar1 bar2 > newfile

またはあなたの場合

cat folder1/* folder2/* > newfile

これにより、フォルダ1とフォルダ2のすべてのファイルがインポートされ（テキストとして）新しいファイルにマージされます。 catはファイルを末尾にのみ追加します（つまり、行を追加します）。

ただし、これにより古いファイルが保持されるため、2倍のスペースが必要になり、個別に処理することもできます。

for f in folder1/* folder2/* ; do
    cat $f >> newfile && rm $f
done

これにより、すべてのファイルが追加され、削除されます。

これがあなたが探しているものですか？

Answer 1