そのIDで生物の数を抽出しますか？

Question

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file) \
   | awk '{ print $2,$1,$3 }' \
   | sed 's/,\(ID[^,]*\)/\n# # \1/g' \
   | column -t \
   | tr '#' ' '
5  Papaver_somniferum     ID1
                          ID2
                          ID3
                          ID4
                          ID5
4  Helianthus_annuus      ID6
                          ID7
                          ID8
                          ID9
1  Arabidopsis_thaliana   ID10
2  Citrus_sinensis        ID11
                          ID12
3  Nelumbo_nucifera       ID13
                          ID14
                          ID15
1  Helianthus_annuus      ID16
1  Zea_mays               ID17
1  Coffea_eugenioides     ID18
1  Musa_acuminata         ID19
1  Asparagus_officinalis  ID20

ステップ1：以下を使用してIDと生物の名前を抽出しますsed。

$ sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file
ID1 Papaver_somniferum
ID2 Papaver_somniferum
ID3 Papaver_somniferum
ID4 Papaver_somniferum
ID5 Papaver_somniferum
ID6 Helianthus_annuus
ID7 Helianthus_annuus
...

ステップ2：sed出力をGNUに供給しdatamash、2番目のフィールドでグループ化し、1番目のフィールドで計算して縮小します。

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file)
Papaver_somniferum 5 ID1,ID2,ID3,ID4,ID5
Helianthus_annuus 4 ID6,ID7,ID8,ID9
Arabidopsis_thaliana 1 ID10
Citrus_sinensis 2 ID11,ID12
Nelumbo_nucifera 3 ID13,ID14,ID15
Helianthus_annuus 1 ID16
Zea_mays 1 ID17
Coffea_eugenioides 1 ID18
Musa_acuminata 1 ID19
Asparagus_officinalis 1 ID20

ステップ3：出力を表形式に変換するには、いくつかの形式を追加してください。

awk '{ print $2,$1,$3 }'列2（個数）と列1（生物名）を変更します。
sed 's/,$ID[^,]*$/\n# # \1/g'各コンマとIDを改行、スペースで区切られた2つのダミー文字、および#ID（GNUを使用sed）で置き換えます。
column -t表形式の指定
tr '#' ' '#ダミー文字をスペースに置き換える

Answer 1

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file) \
   | awk '{ print $2,$1,$3 }' \
   | sed 's/,\(ID[^,]*\)/\n# # \1/g' \
   | column -t \
   | tr '#' ' '
5  Papaver_somniferum     ID1
                          ID2
                          ID3
                          ID4
                          ID5
4  Helianthus_annuus      ID6
                          ID7
                          ID8
                          ID9
1  Arabidopsis_thaliana   ID10
2  Citrus_sinensis        ID11
                          ID12
3  Nelumbo_nucifera       ID13
                          ID14
                          ID15
1  Helianthus_annuus      ID16
1  Zea_mays               ID17
1  Coffea_eugenioides     ID18
1  Musa_acuminata         ID19
1  Asparagus_officinalis  ID20

ステップ1：以下を使用してIDと生物の名前を抽出しますsed。

$ sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file
ID1 Papaver_somniferum
ID2 Papaver_somniferum
ID3 Papaver_somniferum
ID4 Papaver_somniferum
ID5 Papaver_somniferum
ID6 Helianthus_annuus
ID7 Helianthus_annuus
...

ステップ2：sed出力をGNUに供給しdatamash、2番目のフィールドでグループ化し、1番目のフィールドで計算して縮小します。

$ datamash -t' ' -g2 count 1 collapse 1 < <(sed 's/^\(ID[0-9]*\).*\[\([^]]*\)\]$/\1 \2/' file)
Papaver_somniferum 5 ID1,ID2,ID3,ID4,ID5
Helianthus_annuus 4 ID6,ID7,ID8,ID9
Arabidopsis_thaliana 1 ID10
Citrus_sinensis 2 ID11,ID12
Nelumbo_nucifera 3 ID13,ID14,ID15
Helianthus_annuus 1 ID16
Zea_mays 1 ID17
Coffea_eugenioides 1 ID18
Musa_acuminata 1 ID19
Asparagus_officinalis 1 ID20

ステップ3：出力を表形式に変換するには、いくつかの形式を追加してください。

awk '{ print $2,$1,$3 }'列2（個数）と列1（生物名）を変更します。
sed 's/,$ID[^,]*$/\n# # \1/g'各コンマとIDを改行、スペースで区切られた2つのダミー文字、および#ID（GNUを使用sed）で置き換えます。
column -t表形式の指定
tr '#' ' '#ダミー文字をスペースに置き換える

そのIDで生物の数を抽出しますか？

ベストアンサー1

おすすめ記事