他の列の値に基づいて重複項目をフィルタリングする

Question

awk便利なツールは次のとおりです。

awk -F'\t' 'l[$3] {if ($5>n[$3]) {n[$3]=$5; l[$3]=$0} ; next} 
            {n[$3]=$5 ; l[$3]=$0}
            END { for (i in l) {print l[i]}}' infile

-F'\t'- タブ文字をフィールド区切り文字として使用

2行目から始めましょう。n[$3]=$5列 5 の数字を列 3 で索引付けされた配列に保存しn、行全体をl同じ索引で索引付けされた配列に保存します。ただし、これは次の理由で列3に固有の値が最初に表示されたときにのみ発生します。

l[$3] {...}l中括弧で囲まれたコマンドは、インデックス（= 3列）の要素が配列$3にある場合にのみ実行されます。この場合、保存された値はn列5と比較され、必要に応じて更新されます。next方法次のレコードに移動つまり、ファイルの行です。

END- 配列を繰り返しl、$3一意で（最初の）最も高い値を持つすべての行を返します$5。元のファイルの順序は `いいえ維持する。

Answer 1

awk便利なツールは次のとおりです。

awk -F'\t' 'l[$3] {if ($5>n[$3]) {n[$3]=$5; l[$3]=$0} ; next} 
            {n[$3]=$5 ; l[$3]=$0}
            END { for (i in l) {print l[i]}}' infile

-F'\t'- タブ文字をフィールド区切り文字として使用

2行目から始めましょう。n[$3]=$5列 5 の数字を列 3 で索引付けされた配列に保存しn、行全体をl同じ索引で索引付けされた配列に保存します。ただし、これは次の理由で列3に固有の値が最初に表示されたときにのみ発生します。

l[$3] {...}l中括弧で囲まれたコマンドは、インデックス（= 3列）の要素が配列$3にある場合にのみ実行されます。この場合、保存された値はn列5と比較され、必要に応じて更新されます。next方法次のレコードに移動つまり、ファイルの行です。

END- 配列を繰り返しl、$3一意で（最初の）最も高い値を持つすべての行を返します$5。元のファイルの順序は `いいえ維持する。

おすすめ記事