GNU grepの最適化

Question

いいえ、そんなことはありません。一般に、開始コストgrep（新しいプロセスフォーク、実行可能ファイルのロード、共有ライブラリ、動的接続...）は正規表現をコンパイルするよりもはるかに高いため、この最適化はほとんど意味がありません。

見たけど1250個の文字列を90kパターンに一致させるのはなぜそんなに遅いのですか？grepいくつかの正規表現を特に遅くするいくつかのGNUバージョンのバグについてです。

grepここでは、ブロックを同じインスタンスに提供することで、ブロックを複数回実行することを避けることができますgrep。以下以外のzshGNUgrepと実装を使用してください。awkmawk

coproc grep -E -f patterns -e '^@@MARKER@@$' --line-buffered
process_chunk() {
  { cat; echo @@MARKER@@; } >&p & awk '$0 == "@@MARKER@@"{exit};1' <&p
}
process_chunk < chunk1 > chunk1.grepped
process_chunk < chunk2 > chunk2.grepped

awkorを使用してすべての操作を実行する方が簡単かもしれませんperl。

grepただし、出力を別のチャンク内の他のファイルに入れる必要がない場合は、いつでも次のことができます。

{
  cat chunk1
  while wget -qO- ...; done # or whatever you use to fetch those chunks
  ...
} | grep -Ef patterns > output

Answer 1

いいえ、そんなことはありません。一般に、開始コストgrep（新しいプロセスフォーク、実行可能ファイルのロード、共有ライブラリ、動的接続...）は正規表現をコンパイルするよりもはるかに高いため、この最適化はほとんど意味がありません。

見たけど1250個の文字列を90kパターンに一致させるのはなぜそんなに遅いのですか？grepいくつかの正規表現を特に遅くするいくつかのGNUバージョンのバグについてです。

grepここでは、ブロックを同じインスタンスに提供することで、ブロックを複数回実行することを避けることができますgrep。以下以外のzshGNUgrepと実装を使用してください。awkmawk

coproc grep -E -f patterns -e '^@@MARKER@@$' --line-buffered
process_chunk() {
  { cat; echo @@MARKER@@; } >&p & awk '$0 == "@@MARKER@@"{exit};1' <&p
}
process_chunk < chunk1 > chunk1.grepped
process_chunk < chunk2 > chunk2.grepped

awkorを使用してすべての操作を実行する方が簡単かもしれませんperl。

grepただし、出力を別のチャンク内の他のファイルに入れる必要がない場合は、いつでも次のことができます。

{
  cat chunk1
  while wget -qO- ...; done # or whatever you use to fetch those chunks
  ...
} | grep -Ef patterns > output

GNU grepの最適化

ベストアンサー1

おすすめ記事