行の順序を維持しながら重複行を削除する

Question

これが違いをもたらすかどうかは疑問ですが、Perlで同じことをする方法は次のとおりです。

perl -ne 'print if ++$k{$_}==1' out.txt

問題がメモリ内に一意の行を保持することである場合、awk試みたのと同じ問題が発生します。したがって、別のアプローチは次のとおりです。

cat -n out.txt | sort -k2 -k1n  | uniq -f1 | sort -nk1,1 | cut -f2-

仕組み：

GNUシステムでは、cat -n各行の前に行番号が続き、その後にスペースが続きます。<タブ>特徴。catこの入力表現をsort。
sortオプションは、-k2ソート時に2番目のフィールドから行末までの文字のみを考慮し、デフォルトでスペースにsortフィールドを分割するように指示します。（またはcatスペースを挿入して<タブ>)。
続くと、-k1n2sort番目のフィールドが最初に考慮され、次に（-k2同じフィールドの場合）最初のフィールドが考慮されますが、数字でソートされます。したがって、重複した行は表示される順序で並べ替えられます。
結果は次にパイプされますuniq。最初のフィールドを無視するように求められます。（-f1- スペースで区切ることもできます）- 元のファイルの一意の行のリストを生成し、それを再度sort。
今回はsort最初のフィールドをソートします。(cat行番号の挿入)数値的にソート順序を元のファイルの順序に復元し、結果をcut。
最後にcut挿入された行番号を削除しますcat。これは、cut2番目のフィールドから行末までのみ印刷することで可能です。（cutデフォルトの区切り記号は次のとおりです。<タブ>特徴)。

表示するには：

$ cat file
bb
aa
bb
dd
cc
dd
aa
bb
cc
$ cat -n file | sort -k2 | uniq -f1 | sort -k1 | cut -f2-
bb
aa    
dd
cc

Answer 1

これが違いをもたらすかどうかは疑問ですが、Perlで同じことをする方法は次のとおりです。

perl -ne 'print if ++$k{$_}==1' out.txt

問題がメモリ内に一意の行を保持することである場合、awk試みたのと同じ問題が発生します。したがって、別のアプローチは次のとおりです。

cat -n out.txt | sort -k2 -k1n  | uniq -f1 | sort -nk1,1 | cut -f2-

仕組み：

GNUシステムでは、cat -n各行の前に行番号が続き、その後にスペースが続きます。<タブ>特徴。catこの入力表現をsort。
sortオプションは、-k2ソート時に2番目のフィールドから行末までの文字のみを考慮し、デフォルトでスペースにsortフィールドを分割するように指示します。（またはcatスペースを挿入して<タブ>)。
続くと、-k1n2sort番目のフィールドが最初に考慮され、次に（-k2同じフィールドの場合）最初のフィールドが考慮されますが、数字でソートされます。したがって、重複した行は表示される順序で並べ替えられます。
結果は次にパイプされますuniq。最初のフィールドを無視するように求められます。（-f1- スペースで区切ることもできます）- 元のファイルの一意の行のリストを生成し、それを再度sort。
今回はsort最初のフィールドをソートします。(cat行番号の挿入)数値的にソート順序を元のファイルの順序に復元し、結果をcut。
最後にcut挿入された行番号を削除しますcat。これは、cut2番目のフィールドから行末までのみ印刷することで可能です。（cutデフォルトの区切り記号は次のとおりです。<タブ>特徴)。

表示するには：

$ cat file
bb
aa
bb
dd
cc
dd
aa
bb
cc
$ cat -n file | sort -k2 | uniq -f1 | sort -k1 | cut -f2-
bb
aa    
dd
cc

おすすめ記事