GNU Datamashの計算タスク

2024-06-28 • tag-icon

scripting gnu

次のような構造を持つ巨大なファイルがあります。

A B 1980
A C 1985
A B 1979
A D 1990
A C 1981

アクションは、最初の2列の要素の頻度を計算し、各ペアに関連する最小数を返すことです。より明確にするには、出力は次のようになります。

A B 2 1979
A C 2 1981
A D 1 1990

私の代謝の1つは次のとおりです（おもちゃのデータによると正しい）。

datamash -t' ' -s -g 1,2 count 1 min 3 < test.tsv

質問：ステートメントでcountアクションがどのように使用されるのかわかりません。group by構文を正しく理解したら、count 1最初の列の要素のみを計算する必要があります。誰かがこれを説明できますか？

おすすめ記事