awkを使用して大容量ファイルを解析し、サブセットを抽出します。

Question

awk '$1=="chr10"{print; next}{exit}' cov.txt > subset.txt

テスト：/dev/null次へリダイレクト12,947,909 chr10レコードに加えて、いくつかのレコードをchr11追加chr1299,063,774行 - 出力はすべて同じです（同じmd5sum）。出力ライン数=12,947,909- 最も速いものから最も遅いものまで並べ替え：

スティーブ：awk '{ if($1 == "chr10") { print } else { exit } }' cov.txt >/dev/null

real  0m5.963s
user  0m5.896s
sys   0m0.064s

ピーターO：awk '$1=="chr10"{print; next}{exit}' cov.txt >/dev/null

real  0m6.553s
user  0m6.484s
sys   0m0.068s

コース：perl -pe '!/chr10/&&exit' cov.txt >/dev/null

real  0m8.658s
user  0m8.545s
sys   0m0.112s

スティーブ：sed -n '/^chr10[^0-9]/ { p; b; }; q' cov.txt >/dev/null

real  0m17.130s
user  0m17.077s
sys   0m0.052s

ユーザー 3138373:awk '$1 ~ /^chr10$/{print}; $1 !~ /^chr10$/{exit}' cov.txt >/dev/null

real  0m18.621s
user  0m18.541s
sys   0m0.080s

Answer 1

awk '$1=="chr10"{print; next}{exit}' cov.txt > subset.txt