CSVのフィールドに重複した値を持つ連続行を削除し、最後の行を保持します。

Question

そしてsed：

sed '$!N;/\(.*,\).*\n\1/!P;D' infile

Nすなわち、パターン空間には常に２つの連続するラインがあり、sed Pそのうちの第１のラインは、そのラインの第１のフィールドが第２のラインの第１のフィールドと異なる場合にのみ印刷される。次に、Dパターン空間から最初の行を削除し、ループを再開します。

別の方法はgnu datamash（ファイルがdatamashソートされるべき入力に従ってソートされていると仮定）：

datamash -t ',' -g 1 last 2 <infile

これにより、g区切られた入力がstフィールドにグループ化され、各グループの値（nd列から）のみが印刷されます。,1last2

ファイルがソートされていない場合は、次のdatamash基準でソートできます-s。

datamash -t ',' -s -g 1 last 2 <infile

ただし、これは行の初期順序が維持されないことを意味します。したがって、望ましい効果がないかもしれません。この場合、sed//awkなどを使用できますperl。

Answer 1