特定の列のすべてのファイルにパターンが一度だけ含まれている場合に行を削除する方法

Question

まず、保持したいすべての冗長IDが返されます。

$ awk '{ print $1 }' <file | sort | uniq -d
A2SGWS7CUGU8GB

を使用して、最初のスペースで区切られたフィールド（ID）を抽出してこれを実行しますawk。その後、それらをソートしてuniq -d重複したIDのみを出力するために使用されます。

その後、これらの（この場合は単一の）IDを使用して元のファイルからその行を抽出できます。まず、次のようにソートする必要がありますjoin。

$ join <( awk '{ print $1 }' <file | sort | uniq -d ) <( sort file )
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB

シェルが<(...)一時ファイルを使用したプロセスの置き換えをサポートしていない場合は、一時ファイルを使用して2つのステップでこれを実行できます。

$ sort -o file.sorted file
$ awk '{ print $1 }' <file | sort | uniq -d | join - file.sorted
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB

使用ただ awk、これは次のように行うことができます。

$ awk 'NR == FNR { count[$1]++; next } count[$1] > 1' file file
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB
A2SGWS7CUGU8GB

コードはファイルを2回読み取るため、コマンドラインでファイルを2回参照しますawk。

最初は、連想配列がcount各ＩＤの発生回数で満たされ、第２に、ＩＤが複数回発生する各行が出力される。

上記の2つの方法の違いは、awk最後のコマンドが元のデータの順序を維持しますが、一意のIDの数に比例してメモリを消費することです。最初のアプローチはソートされた結果を生成するため、より適している可能性があります。とても大きいデータ。

ヘッダー行を保持するには、コマンドを少し変更する必要があります。

$ join <( awk '{ print $1 }' <file | sort | uniq -d ) <( sort file ) | cat <(head -1 file) -

または

$ sort -o file.sorted file
$ awk '{ print $1 }' <file | sort | uniq -d | join - file.sorted > file.noheader
$ head -1 file | cat - file.noheader

または

$ awk 'NR == 1 ; NR == FNR { count[$1]++; next } count[$1] > 1' file file

Answer 1