マージされたCSVファイルがたくさんあります。しかし、繰り返しはありますが、行全体が繰り返されるわけではありません。重複項目を検索するための基準として使用したい列があります。列全体に重複がある場合は、列に一意の値がすべて含まれるまで、重複を含む列の行を削除します。
Bash、sed、awkでこれを行う最良の方法を知っている人はいますか?
ベストアンサー1
awk -F, '!seen[$1]++'
$1
は最初の列です。適切に変更すると、[$1,$3]
カンマ()で区切られた複数の列を使用することも、$0
行全体を使用することもできます。