500万ファイルを効率的にマージ

Question

いつでもファイルを削除する必要がある場合、作成した内容はすでにクイック削除方法です。 1つの最適化は、をfind使用してファイルを一覧表示するのではなく、ファイルの内容を一覧表示するために使用できることです*。これは、ファイルが追加の処理時間を発生させることなくディレクトリリストに表示されるためですfind。つまり、次のように作成します。

for i in *; do tail -n +3 $i >> ../x; rm $i; done

ただし、マージを完了する前にそのアイテムを削除して、どのコンテンツがどのファイルから来たかを維持したい場合は、一度に解析して複数のアイテム（シェルで許可されている限り）を追跡する方法があります。これを行うコマンドは次のとおりです。

find . -exec tail -n +3 {} >> ../x +

最後に、一度に1つずつ複数のファイル名を一度に渡すように求められます+。findこれにより、（呼び出されるインスタンスの数がはるかに少なくなるため）パフォーマンスが大幅に向上しますが、tail出力ファイルにはまだ次の内容があります。

==> ./filename <==

1つのファイルが終了し、次のファイルが起動するたびに印刷します。また、これらのファイルは削除されません。

少しの速度を犠牲にして上記の行を削除するには、次のように実行できます。

find . -exec awk 'FNR>32' {} +

（コメントで提案してくれたdave_thompsonに感謝します）。

最後に、どの情報がどのファイルから来たのかを一覧表示する出力を好み、いつでも削除したい場合は、iruvarの答えを使用して2つの「」を「」\;」+に置き換えることができます(私の元の答えは何をすべきか?を提供します。

Answer 1