大容量ファイルの効率的な解析

Question

中間データを文字列として保存するのは遅く、ほとんど必要ありません。通常、単一のスカラー変数に複数の文字列を格納することには、追加の問題があります。このように、各部分文字列にはスペースやその他の文字を含めることができ、後で引用符なしでループ方式を使用してシェルを強制的に解決できます。文字列を分割しますfor（配列を使用する方が良いです）。

この場合、各ファイルを見つけて温度を抽出し、その温度ストリームを読み取る方が効率的です。また、300 KB（またはそれ以上）の文字列を含むシェル変数の生成を防ぎます。

摂氏温度は以下で分析できます。一つファイル使用量

awk '$2 == "PROCESSOR_ZONE" { printf "%d\n", $3 }' file

2番目のフィールドが文字列の場合、3番目のフィールドの温度を出力しますPROCESSOR_ZONE。書き込み時に3番目のフィールドが整数に変換されるため、値の最初の部分だけが出力されます（数字ではなく最初の部分まで）。

以下から呼び出されますfind。

find . -name hp-temps.txt \
    -exec awk '$2 == "PROCESSOR_ZONE" { printf "%d\n", $3 }' {} +

これはawk、見つかったファイルの1つ以上のバッチに対してコマンドを実行し、標準出力に順番に温度を出力します。

awk非標準ステートメントを理解することを使用している場合は、nextfileそれを使用してできるだけ早く次のファイルに移動できます。

find . -name hp-temps.txt \
    -exec awk '$2 == "PROCESSOR_ZONE" { printf "%d\n", $3; nextfile }' {} +

上記のコマンドで出力された最大値を見つけるには、次のawkコマンドを使用することもできます。

awk 'NR == 1 || $1 > max { max = $1 } END { print max }'

awkmax変数の値がこれまでに確認された最初の値または最大値の場合は、現在の入力値に設定します。最後のmax出力値です。

私はこれがシェルループよりも数倍速いと思います。

総合してみると：

find . -name hp-temps.txt \
    -exec awk '$2 == "PROCESSOR_ZONE" { printf "%d\n", $3; nextfile }' {} + |
awk 'NR == 1 || $1 > max { max = $1 } END { print max }'

最大値を持つファイルのファイル名を検索するための追加の要求があります。各ファイルの値とともにファイル名を渡すだけです。では、awk現在の入力ファイルのパス名を特殊変数として使用できますFILENAME。

find . -name hp-temps.txt \
    -exec awk '$2 == "PROCESSOR_ZONE" { printf "%d\t%s\n", $3, FILENAME; nextfile }' {} + |
awk 'NR == 1 || $1 > max { max = $1; fname = $2 } END { print max, fname }'

複数のファイルの最大値が等しい場合、見つかった最初のファイルのファイル名が報告されますfind。ユーティリティは、findリストされた順序でファイルを検索します。ls -f

Answer 1