列のTRUE値の比率に基づいてTRUE / FALSE行列から列を抽出します。

Question

すべての列をスキャンし、各列に「TRUE」の数を累積します。
最後に、設定点以上のすべての列を印刷します。

#!/bin/bash
awk -vprop="${1:-0.3}" '
        NR==1{split($0,fields);next};
        {for(i=2;i<=NF;i++){  if($i=="TRUE" ){t[i]++};
                              if($i=="FALSE"){f[i]++}
                           }
        }
        END{
            for(j in t)
            if( (1/(1+f[j]/t[j])) >= prop){
                printf("%-10s\t%s\t%s\n",fields[j],j,1/(1+f[j]/t[j]) )
            }
        }' infile

実行時（提供されたデータについて）：

$ ./script  0.001
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.8        i=11    t=1     f=8     p=0.111
group1.9        i=12    t=3     f=6     p=0.333

列2（MT）にはTRUE値が1つ以上（実際には3つ）あります。
列3（グループ1）にはTRUE値が2つあります。
列11（group1.8）にはTRUE値が1つあります。列12（group1.9）には3つのTRUE値があります。

スケールを指定しない場合、デフォルトは0.3です。

$ ./script
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.9        i=12    t=3     f=6     p=0.333

Answer 1

すべての列をスキャンし、各列に「TRUE」の数を累積します。
最後に、設定点以上のすべての列を印刷します。

#!/bin/bash
awk -vprop="${1:-0.3}" '
        NR==1{split($0,fields);next};
        {for(i=2;i<=NF;i++){  if($i=="TRUE" ){t[i]++};
                              if($i=="FALSE"){f[i]++}
                           }
        }
        END{
            for(j in t)
            if( (1/(1+f[j]/t[j])) >= prop){
                printf("%-10s\t%s\t%s\n",fields[j],j,1/(1+f[j]/t[j]) )
            }
        }' infile

実行時（提供されたデータについて）：

$ ./script  0.001
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.8        i=11    t=1     f=8     p=0.111
group1.9        i=12    t=3     f=6     p=0.333

列2（MT）にはTRUE値が1つ以上（実際には3つ）あります。
列3（グループ1）にはTRUE値が2つあります。
列11（group1.8）にはTRUE値が1つあります。列12（group1.9）には3つのTRUE値があります。

スケールを指定しない場合、デフォルトは0.3です。

$ ./script
MT              i=2     t=3     f=6     p=0.333
group1          i=3     t=2     f=7     p=0.222
group1.9        i=12    t=3     f=6     p=0.333

列のTRUE値の比率に基づいてTRUE / FALSE行列から列を抽出します。

ベストアンサー1

おすすめ記事