次のような構造を持つ大きなcsvファイルがあります。
334050049049426,2018-11-06T20:21:56.591Z,xxx,gdl-qns28-1540279057144
334050049049426,2018-11-06T21:32:47.431Z,xxx,gdl-qns19-1540278993723
334090015032064,2018-11-06T22:22:31.247Z,xxx,gdl-qns15-1540279009813
334090015032064,2018-11-07T01:44:11.442Z,xxx,gdl-qns25-1540279437614
334090015032064,2018-11-07T03:57:18.911Z,xxx,gdl-qns28-1540279710160
334050069888299,2018-11-07T03:32:12.899Z,xxx,gdl-qns29-1540279367769
334050069888299,2018-11-07T03:58:15.475Z,xxx,mgc-qns20-1540281468455
最初の列で見つかった重複値の最初の行を削除できるはずです。たとえば、行1、3、6を削除する必要があります。
ベストアンサー1
awk
一意の最初の列を持つ行がない場合は、次を試してください。
awk -F, 'pre==$1 { print; next }{ pre=$1 }' infile
または通常、次のように変更します。
awk -F, 'pre==$1 { print; is_uniq=0; next }
# print when current& previous lines' 1st column were same
# unset the 'is_uniq=0' variable since duplicated lines found
is_uniq { print temp }
# print if previous line ('temp' variable keep a backup of previous line) is a
# uniq line (according to the first column)
{ pre=$1; temp=$0; is_uniq=1 }
# backup first column and whole line into 'pre' & 'temp' variable respectively
# and set the 'is_uinq=1' (assuming might that will be a uniq line)
END{ if(is_uniq) print temp }' infile
# if there was a line that it's uniq and is the last line of input file, then print it
コメントなしの同じスクリプト:
awk -F, 'pre==$1 { print; is_uniq=0; next }
is_uniq { print temp }
{ pre=$1; temp=$0; is_uniq=1 }
END{ if(is_uniq) print temp }' infile
メモ:これは、入力ファイルがinfile
最初のフィールドでソートされていると仮定します。そうでない場合は、ソートされたファイルを次のフィールドに渡す必要があります。
awk ... <(sort -t, -k1,1 infile)