重複した項目に基づいて列を並べ替え、最初の項目を保持[重複]

Question

Edが彼の本で言ったようにコメント、sortコマンドは3番目のフィールドをソートしていますが、実際には2つのフィールド（:フィールド区切り文字）しかありません。したがって、問題を解決するには、キーを3。2

ただし、レコードが行/レコード番号の代わりにキー値に基づいてソートされると、ソースファイルの元のレコードの順序が混乱します。

$ sort -u -t':' -k2,2 test.txt 
1:A
2:B
6:C
5:a
4:b
$

これはおそらくいいえあなたは何が欲しいですか？ただし、この問題は出力を再パイピングすることで簡単に解決できますsort。

$ sort -u -t':' -k2,2 test.txt | sort 
1:A
2:B
4:b
5:a
6:C
$

ノート--parallel：大きなファイルがあると述べたように、速度を上げるにはフラグ^1を使用することをお勧めします。

sort --parallel=<n> -u -t':' -k2,2 test.txt | sort --parallel=<n>

<n>利用可能なコアの数はいつ取得されますか？

サンプルファイルを展開すると、元のデータが次の名前のファイルにある場合test.txt：

1:A
2:B
3:A
4:b
5:a
6:C

また、フィールド区切り記号と見なされるため、^2を:使用できます。awk

たとえば、次の行は次のようになります。

awk 'BEGIN{FS=":"}{if (!seen[$2]++)print $0}' test.txt

次の結果を提供します。

$ awk 'BEGIN{FS=":"}{if (!seen[$2]++)print $0}' test.txt 
1:A
2:B
4:b
5:a
6:C
$

以下を使用してロジックを調べると、これがどのように機能するかを理解できます。

$ awk 'BEGIN{FS=":"}{print !seen[$2]++}' test.txt 
1
1
0
1
1
1
$

これをスクリプトの代わりにシェルスクリプト³に入れると、次のようになります。awk

#!/bin/sh

awk -F':' '
  (!seen[$2]++) {
    print $0
  }
' "$1"

引用する:

Answer 1