ファイルの各行に対して md5sum を計算します。

ファイルの各行に対して md5sum を計算します。

次のファイルが提供されます。

a
b
c

次のような出力を得るにはどうすればよいですか?

a       0cc175b9c0f1b6a831c399e269772661
b       92eb5ffee6ae2fec3ad71c777531578f
c       4a8a08f09d37b73795649038408b5f33

効率的な方法で? (入力は80GB)

ベストアンサー1

これはPerlでは1つだけ減らすことができます:

head 80gb | perl -MDigest::MD5=md5_hex -nlE'say"$_\t".md5_hex($_)'
a       0cc175b9c0f1b6a831c399e269772661
b       92eb5ffee6ae2fec3ad71c777531578f
c       4a8a08f09d37b73795649038408b5f33
d       8277e0910d750195b448797616e091ad
e       e1671797c52e15f763380b45e841ec32
f       8fa14cdd754f91cc6554c9e71929cce7
g       b2f5ff47436671b6e533d8dc3614845d
h       2510c39011c5be704182423e3a695e91
i       865c0c0b4ab0e063e5caa3387c1a8741
j       363b122c528f54df4a0446b6bab05515

出力を保存する必要があり、このチャンクを噛んでいる間に素晴らしい進行状況バーが必要な場合:

sudo apt install pv          #ubuntu/debian
sudo yum install pv          #redhat/fedora
pv 80gb | perl -MDigest::MD5=md5_hex -nlE'say"$_\t".md5_hex($_)' | gzip -1 > 80gb-result.gz

おすすめ記事