CSVパーサーを使用して特定の列に基づいてCSV行を重複排除する

2025-03-21 • tag-icon

linux csv csvkit miller

このタスクを検索したところ、次のような古い質問が見つかりました。

awkしかし、私のデータは複数のネストされた二重引用符を持つ複雑なCSVファイルなので、そうすることはできません。

次のような重複を排除したいとします（単純化された状況）。

Ref,xxx,zzz
ref1,"foo, bar, base",qux
ref1,"foo, bar, base",bar
ref2,aaa,bbb

出力には次のように必要です。

Ref,xxx,zzz
ref1,"foo, bar, base",qux
ref2,aaa,bbb

awkCSVパーサーを使用する以外に解決策はありません。

私は以下を試しました：

mlr --csv uniq -a -g Ref file.csv

しかし、これは間違いです。

君は走れるよ

mlr --csv head -n 1 -g Ref input.csv

次に、グループ化された最初の行を取得します。Ref

おすすめ記事