grep検索に基づいてスクリプトを高速化する方法は？

Question

ボトルネックは、recon.txtシェルからファイルを1行ずつ読み取っています。失敗した行を取得するには、ログ内の行を前処理して行のように見えるようにし、それを使用してrecon.txt次comm(1)のように設定の違いを見つけることができます。

comm -23 \
    <(sort -u recon.txt) \
    <(sed 's/.*| id=\([0-9]*\)| version=\([0-9]*\)|.*/\1,\2/' worker-6715.log.2016-$1.log.* | \
        sort -u)

これは、構成を処理できるシェルがあると仮定します<(...)。また、結果の行の順序は維持されませんrecon.txt。この順序を維持することはより困難で遅いでしょう。

成功回数も必要な場合は、反対の操作を実行してrecon.txtログで見つかったのと同様に見えるように前処理してから、またはをfgrep(1)使用grep -Fして検索できます。ロケールを次に設定すると、C一部のシステムで作業速度が大幅に向上する可能性があります。したがって：

COUNT=$( \
    sed 's/\([0-9]*\),\([0-9]*\)/| id=\1| version=\2|/' recon.txt | \
    LC_ALL=C fgrep -f - worker-6715.log.2016-$1.log.* | \
    wc -l )

これはrecon.txt、重複エントリを含まず、各行がすべてのrecon.txtログで最大1回一致することを前提としています。最初の制限を解除するのは難しいでしょう。 2番目は慎重な選択で持ち上げることができますcomm(1)。

Answer 1

ボトルネックは、recon.txtシェルからファイルを1行ずつ読み取っています。失敗した行を取得するには、ログ内の行を前処理して行のように見えるようにし、それを使用してrecon.txt次comm(1)のように設定の違いを見つけることができます。

comm -23 \
    <(sort -u recon.txt) \
    <(sed 's/.*| id=\([0-9]*\)| version=\([0-9]*\)|.*/\1,\2/' worker-6715.log.2016-$1.log.* | \
        sort -u)

これは、構成を処理できるシェルがあると仮定します<(...)。また、結果の行の順序は維持されませんrecon.txt。この順序を維持することはより困難で遅いでしょう。

成功回数も必要な場合は、反対の操作を実行してrecon.txtログで見つかったのと同様に見えるように前処理してから、またはをfgrep(1)使用grep -Fして検索できます。ロケールを次に設定すると、C一部のシステムで作業速度が大幅に向上する可能性があります。したがって：

COUNT=$( \
    sed 's/\([0-9]*\),\([0-9]*\)/| id=\1| version=\2|/' recon.txt | \
    LC_ALL=C fgrep -f - worker-6715.log.2016-$1.log.* | \
    wc -l )

これはrecon.txt、重複エントリを含まず、各行がすべてのrecon.txtログで最大1回一致することを前提としています。最初の制限を解除するのは難しいでしょう。 2番目は慎重な選択で持ち上げることができますcomm(1)。

grep検索に基づいてスクリプトを高速化する方法は？

ベストアンサー1

おすすめ記事