メモリ使用量が原因でgrepが終了します。 grepがあまりにも多くのメモリを使用しないようにすることはできますか？

Question

sortコマンドは、比較的一般的なユースケースである大規模データセットを処理するための特定のサポート機能を提供します。巨大なgrepパターンは非常にまれなユースケースなので、開発者はこれに多くの努力を払うことを期待できません。

行の順序が重要でない場合は、ファイルの長さに関係なく、一度に数行以上メモリに保存せずに2つのファイルを並べ替えて比較できます。ソートにより、メモリ不足のファイルを処理できるため、これは効率的です。

sort originallist >originallist.sorted
sort cleaned1 | comm -23 originallist.sorted - >cleaned2.sorted

OriginalListの元の順序が重要な場合は、行番号を追加できます。

nl -w 22 originallist >originallist.numbered
# then generate cleaned1 from the numbered list

originallist.numberedソートされているので、これを実行して共通行を検索できますcomm。

順序が重要で行番号を付けるには遅すぎる場合は、チャンクに分割してcleaned1各チャンクに対して単一のパスを作成することができます。originallist最近のGNU分割：

cp originalfile cleaned2.in
split -l 1000000 --filter='grep -Fxv -f - cleaned2.in >cleaned2.out; mv cleaned2.out cleaned2.in' cleaned1
mv cleaned2.in cleaned2

（F「完全行マッチング」ではなく部分文字列マッチングを実行します。フル行ストリングマッチングの場合は-x。）

Answer 1