列の要素の発生頻度に基づいて行を選択する方法

Question

1つの方法は、入力ファイルを2回処理することです。

awk -F'\t' -v frq=10 -v colId=2 '
  NR==FNR{ count[$colId]++; next }
  count[$colId] >frq
' infile infile

注：カスタムawk変数は、レコードを出力する必要があるターゲット列IDの要素の最小繰り返し頻度を設定および指定するためfrqに使用されます。colId

別の方法は、入力ファイルを処理することです。一度そしてただ数行バッファリング^{ipnutデータが}次のように2番目のフィールドにソートされている場合：

awk -F'\t' -v frq=10 -v colId=2 '
function prnt() { if(c>frq) printf("%s", buf); buf=c="" }

prev!=$colId{ prnt() }
{ c++; prev=$colId; buf = buf $0 ORS }

END{ prnt() }' infile

2番目のフィールドでソートされていない場合は、^まずソートしてからawkに渡します。

<infile sort -t$'\t' -k2,2 |
awk -F'\t' -v frq=10 -v colId=2 '
function prnt() { if(c>frq) printf("%s", buf); buf=c="" }

prev!=$colId{ prnt() }
{ c++; prev=$colId; buf = buf $0 ORS }

END{ prnt() }'

Answer 1

1つの方法は、入力ファイルを2回処理することです。

awk -F'\t' -v frq=10 -v colId=2 '
  NR==FNR{ count[$colId]++; next }
  count[$colId] >frq
' infile infile

注：カスタムawk変数は、レコードを出力する必要があるターゲット列IDの要素の最小繰り返し頻度を設定および指定するためfrqに使用されます。colId

別の方法は、入力ファイルを処理することです。一度そしてただ数行バッファリング^{ipnutデータが}次のように2番目のフィールドにソートされている場合：

awk -F'\t' -v frq=10 -v colId=2 '
function prnt() { if(c>frq) printf("%s", buf); buf=c="" }

prev!=$colId{ prnt() }
{ c++; prev=$colId; buf = buf $0 ORS }

END{ prnt() }' infile

2番目のフィールドでソートされていない場合は、^まずソートしてからawkに渡します。

<infile sort -t$'\t' -k2,2 |
awk -F'\t' -v frq=10 -v colId=2 '
function prnt() { if(c>frq) printf("%s", buf); buf=c="" }

prev!=$colId{ prnt() }
{ c++; prev=$colId; buf = buf $0 ORS }

END{ prnt() }'

列の要素の発生頻度に基づいて行を選択する方法

ベストアンサー1

おすすめ記事