複数のgzipファイルから重複したアイテムをマージ、ソート、および削除します。

Question

問題は、個々のファイルがソートされていないことです。つまり、そのようなものを使用している場合は、sort -u file* > sortedFileソートするにはすべてのファイルの内容をロードしてソートする必要があります。おそらく120GB以上のメモリがないので、これは非効率的だと思います。

まず、すべてのファイルを個別にソートしてから、を使用してマージすることをお勧めしますsort -m（このコードはテストされていません！）。

for f in file*; do
  gzip -dc "$f" | sort > sorted.$f.bak
done
sort -m -u sorted.file*.bak > sortedFile
rm -f sorted.file*.bak

マニュアルページの関連部分を並べ替えます（例：http://unixhelp.ed.ac.uk/CGI/man-cgi?sort):

-m、--mergeソートされたファイルをマージしません。

修正する：読んでからhttps://stackoverflow.com/questions/930044/how-could-the-unix-sort-command-sort-a-very-large-fileとにかく、sortは入力を管理可能な塊に分割するので、元のコマンドはおそらくそれほど速いと思います。コマンドラインは次のとおりです。

 sort <(zcat file1) <(zcat file2) ... <(zcat file15) > sortedFile

これにより、マシンの複数のコアを使用することもできます。

Answer 1