複数の列をソートする -u（またはソート| uniq）が、3番目の列に情報を保持し、保持された行に追加しますか？

Question

スタンドアロンの方法はわかりませんが、sortawkを使用して値を「縮小」してから並べ替えることができます。

$ awk -F'\t' '
    BEGIN{OFS=FS} 
    {k = $1 FS $2} 
    {a[k] = a[k] == "" ? $3 : a[k] "," $3} 
    END{for (k in a) print k,a[k]}
 ' file | sort
a       b       hello,goodbye
a       c       I say
g       g       test

最新バージョンのGNU awkでは、次のように設定して、外部の並べ替えを避けるために配列の巡回順序を設定できますPROCINFO。

awk -F'\t' '
  BEGIN{OFS=FS} 
  {k = $1 FS $2} 
  {a[k] = a[k] == "" ? $3 : a[k] "," $3} 
  END{PROCINFO["sorted_in"]="@ind_str_asc"; for (k in a) print k,a[k]}
' file

または GNU datamash を使用してください。

datamash groupby 1,2 collapse 3 <file

またはより詳細な（しかしより柔軟な）Miller

mlr --nidx --fs tab nest --implode --values --across-records --nested-fs , -f 3  file

Answer 1

スタンドアロンの方法はわかりませんが、sortawkを使用して値を「縮小」してから並べ替えることができます。

$ awk -F'\t' '
    BEGIN{OFS=FS} 
    {k = $1 FS $2} 
    {a[k] = a[k] == "" ? $3 : a[k] "," $3} 
    END{for (k in a) print k,a[k]}
 ' file | sort
a       b       hello,goodbye
a       c       I say
g       g       test

最新バージョンのGNU awkでは、次のように設定して、外部の並べ替えを避けるために配列の巡回順序を設定できますPROCINFO。

awk -F'\t' '
  BEGIN{OFS=FS} 
  {k = $1 FS $2} 
  {a[k] = a[k] == "" ? $3 : a[k] "," $3} 
  END{PROCINFO["sorted_in"]="@ind_str_asc"; for (k in a) print k,a[k]}
' file

または GNU datamash を使用してください。

datamash groupby 1,2 collapse 3 <file

またはより詳細な（しかしより柔軟な）Miller

mlr --nidx --fs tab nest --implode --values --across-records --nested-fs , -f 3  file

複数の列をソートする -u（またはソート| uniq）が、3番目の列に情報を保持し、保持された行に追加しますか？

ベストアンサー1

おすすめ記事