複数のtxtファイルから重複行を削除する[閉じる]

Question

すべての重複エントリを削除しますが、ファイル内の最初の重複エントリを保持し、他のファイルから削除するには、次のようにawkを使用できます。これにより、行の順序も維持されます。

awk '!seen[$0]++ { print >FILENAME".new" }' file1 file2 ... file12

これには最大12個のファイルがあるため、awkを介して開いているファイルを閉じる必要はありませんが、処理して完了した後でも各ファイルを閉じることができます。

awk '!seen[$0]++ { 
    if(prev!=FILENAME) close(prev".new");
    print >FILENAME".new";
    prev=FILENAME }
' file1 file2 ... file12

シェルと外部コマンドを使用して、出力mvファイルの名前を元の名前に変更できます。renameコマンドも同様です。）

for file in ./*.new; do echo mv -v -- "$file" "${file%.new}"; done

注：echo結果に満足したら削除してください。

GNU awkがある場合は、-i inplaceオプションを使用して次のようにファイルを変更し、コマンド全体を簡素化できます。

gawk -i inplace '!seen[$0]++' file1 file2 ... file12

Answer 1

すべての重複エントリを削除しますが、ファイル内の最初の重複エントリを保持し、他のファイルから削除するには、次のようにawkを使用できます。これにより、行の順序も維持されます。

awk '!seen[$0]++ { print >FILENAME".new" }' file1 file2 ... file12

これには最大12個のファイルがあるため、awkを介して開いているファイルを閉じる必要はありませんが、処理して完了した後でも各ファイルを閉じることができます。

awk '!seen[$0]++ { 
    if(prev!=FILENAME) close(prev".new");
    print >FILENAME".new";
    prev=FILENAME }
' file1 file2 ... file12

シェルと外部コマンドを使用して、出力mvファイルの名前を元の名前に変更できます。renameコマンドも同様です。）

for file in ./*.new; do echo mv -v -- "$file" "${file%.new}"; done

注：echo結果に満足したら削除してください。

GNU awkがある場合は、-i inplaceオプションを使用して次のようにファイルを変更し、コマンド全体を簡素化できます。

gawk -i inplace '!seen[$0]++' file1 file2 ... file12

おすすめ記事