xargsパラレルモードを使用して出力を単一のファイルに安全にリダイレクトする

Question

GNU Parallel は一時ファイルを生成しますが、すぐにリンクを解除します。

実際には、データ量が少なく、各ジョブの期間が短い場合、このデータがディスクに到達しないことを意味します（これを使用して発生するかどうかiostat -dkx 1を確認できます）。

リンクされていないファイルはシステムがクラッシュした場合に回復できないため、インテリジェントファイルシステムはこのデータが一貫した方法でディスクに安全に同期されることを保証するために時間を無駄にしないように選択できます。これもより速くすることができます。

--tmpdirRAMが十分な場合は、/dev/shmを指すこともできます。

parallel "bzcat {} | jq -c '{id,name}'" *.jsonl.bz2 > output.jsonl

CPUは十分ですが、RAMが多くなくディスクが遅い場合は、一時ファイルを圧縮する方が高速です。

parallel --compress "bzcat {} | jq -c '{id,name}'" *.jsonl.bz2 > output.jsonl

すべての出力に一時スペースは必要ありません。現在実行中のジョブには一時スペースのみが必要です。したがって、12個のジョブを並列に実行する場合は、12個のファイルのためのスペースだけが必要です。

Answer 1