awkスクリプトから複数の圧縮ファイルを読む

Question

現在のディレクトリの名前が一致するすべてのファイルを処理しているとします*.txt.gz。名前を変数として渡しawk、圧縮されていないデータをストリーミングします。

for name in *.txt.gz; do
    gzip -c -d -- "$name" |
    awk -v name="$name" -f text_processing.awk
done

awkコードはname変数を使用して出力ファイル名を計算します。

または、シェルスクリプトに使用する明示的な出力ファイル名を指定します。

for name in *.txt.gz; do
    gzip -c -d -- "$name" |
    awk -v outname="result_${name%.gz}" -f text_processing.awk
done

result_${name%.gz}文字列はプレフィックスが削除され、追加されたソースファイルの名前になります。その後、コードを書くために使用されます。.gzresult_awkoutname

明らかにawk、コードが単一の出力ファイルにのみ書き込む場合は、awkコードをさらに簡素化して標準出力として印刷できます。次に、シェルから出力をリダイレクトします。

for name in *.txt.gz; do
    gzip -c -d -- "$name" |
    awk -f text_processing.awk >"result_${name%.gz}"
done

コメントで要求された追加資料：並列にawkコマンドを実行する。

この目的のために、xargsユーティリティが非標準オプション-0（Nulで終わるデータを読み取る）、-r（入力がないときに与えられたコマンドを実行しない）、および-P（並列ジョブの実行）をサポートしているとします。

print '%s\0' *.txt.gz |
xargs -0r -P 4 -I {} sh -c '
    gzip -c -d -- "$1" |
    awk -f text_processing.awk >"result_${1%.gz}"' sh {}

これにより、4つのファイルのgzip+パイプラインが同時に実行されます。生成中のコマンドをインポートして表示するために、ユーティリティにオプションが追加されawkました。-txargs

Answer 1