ファイルを分割し、各部分をパラメータとしてスクリプトに渡し、各スクリプトを並列に実行します。

Question

STDINから読み込んでいるため、一時ファイルが必要ない場合があります。したがって、実際に使用する理由はありませんsplit。次のコマンドを使用してファイルを削除します--pipe。

cat words | parallel --pipe -L 1000 -N1 ./script.sh

必要なものをgrepする場合：

find dir-with-5000-files -type f | parallel -X grep -f words.txt

大きすぎてメモリに収まらない場合はwords.txt分割できます。

find dir-with-5000-files -type f | parallel -X "cat words.txt | parallel --pipe grep -f -"

GNU Parallelのマニュアルページでは、m個の正規表現n行を最も効率的にキャッチする方法について説明しています。https://www.gnu.org/software/parallel/parallel_examples.html#example-grepping-n-lines-for-m-regular-expressions

正規表現の多い大容量ファイルをgrepする最も簡単な解決策は次のとおりです。

grep -f regexps.txt bigfile

または正規表現が固定文字列の場合：

grep -F -f regexps.txt bigfile

CPUとディスクI / Oという2つの制限要因があります。 CPUは測定が簡単です。 grepがCPUの90％を超える場合（例：top実行時）、CPUは制限要因であるため、並列化がスピードアップします。そうでない場合、ディスクI / Oは制限要因であり、ディスクシステムによっては並列化が速くなったり遅くなったりする可能性があります。確かに知っている唯一の方法は測定することです。

CPUが制限要素の場合は、正規表現を並列化する必要があります。

cat regexp.txt | parallel --pipe -L1000 --round-robin grep -f - bigfile

これはCPUごとに1つのgrepを起動し、CPUごとに1回大きなファイルを読み取ります。ただし、これは並行して実行されるため、最初の読み取り以外のすべての読み取りはRAMにキャッシュされます。 regexp.txtのサイズによっては、-L1000の代わりに--block 10mを使用する方が速いかもしれません。 regexp.txtが大きすぎてRAMに収まらない場合は、--round-robinを削除して-L1000を調整してください。これにより、ビッグファイルをもっと読むことができます。

一部のストレージシステムは、複数のブロックを並列に読み取る場合にパフォーマンスが向上します。これは、いくつかのRAIDシステムといくつかのネットワークファイルシステムに当てはまります。大容量ファイルを並列に読み取る：

parallel --pipepart --block 100M -a bigfile grep -f regexp.txt

これにより、ビッグファイルが100 MBのチャンクに分割され、各チャンクに対してgrepが実行されます。 bigfile と regexp.txt を並列に読み取るには、--fifo を使って 2 つを結合します。

parallel --pipepart --block 100M -a bigfile --fifo cat regexp.txt \
\| parallel --pipe -L1000 --round-robin grep -f - {}

Answer 1