CSVから列の重複行を削除するBashコマンド/スクリプト

2024-06-23 • tag-icon

bash sed awk

マージされたCSVファイルがたくさんあります。しかし、繰り返しはありますが、行全体が繰り返されるわけではありません。重複項目を検索するための基準として使用したい列があります。列全体に重複がある場合は、列に一意の値がすべて含まれるまで、重複を含む列の行を削除します。

Bash、sed、awkでこれを行う最良の方法を知っている人はいますか？

awk -F, '!seen[$1]++'

$1は最初の列です。適切に変更すると、[$1,$3]カンマ（）で区切られた複数の列を使用することも、$0行全体を使用することもできます。

おすすめ記事